CN103389800A - 一种生成词条的方法和装置 - Google Patents

一种生成词条的方法和装置 Download PDF

Info

Publication number
CN103389800A
CN103389800A CN2012101456065A CN201210145606A CN103389800A CN 103389800 A CN103389800 A CN 103389800A CN 2012101456065 A CN2012101456065 A CN 2012101456065A CN 201210145606 A CN201210145606 A CN 201210145606A CN 103389800 A CN103389800 A CN 103389800A
Authority
CN
China
Prior art keywords
character string
rollback
user
behavior
upper screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101456065A
Other languages
English (en)
Other versions
CN103389800B (zh
Inventor
王晔晗
戴帅湘
贺文嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210145606.5A priority Critical patent/CN103389800B/zh
Publication of CN103389800A publication Critical patent/CN103389800A/zh
Application granted granted Critical
Publication of CN103389800B publication Critical patent/CN103389800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

本发明提供了一种生成词条的方法和装置,该方法包括:在获取到用户的回退行为后,执行以下流程:将上一次上屏的字符串作为原字符串,记录本次回退行为回退的字符串对应的编码,并记录除回退的字符串之外剩余的原字符串;获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条。相比现有技术,本发明基于用户的输入行为获取新词,更符合用户的输入习惯,可以提高用户输入的效率,提升用户体验。

Description

一种生成词条的方法和装置
【技术领域】
本发明涉及输入法技术领域,特别涉及一种生成词条的方法和装置。
【背景技术】
输入法是指为了将各种符号输入计算机或其他设备(如手机)而采用的编码方法。以汉字输入法为例,针对每个汉字或词设定相应的编码并保存于词库中,只要用户输入对应的编码就能输入所需的汉字或词。例如拼音输入法,用户只需键入汉字对应的拼音等编码串即可输入期望的汉字。
现有输入法中获取新词的方法,需要用户在候选框中选择好所需要的文字,然后一次上屏,则将用户上屏的文字学习成一个新词。然而在用户使用键盘输入文字编码等符号的过程中,由于误选等各种原因难免会产生错误输入,使得已上屏的文字不符合预期。此时,需要先把输入的错误文字删除,并重新输入,再在候选框上重新选择,然后一次上屏,再次输入的文字才能被学习成一个新词。比如,用户期望输入“开放集”,在输入拼音编码“kaifangji”后,出现了“1.开放及、2.开放、3.开房、4.开方、5.开”等的候选词,此时,用户可能习惯性地按空格键就选定了“开放及”上屏,导致选词发生错误。在进行修改时,用户则需要先把输入的错误文字“开放及”删除,并重新输入拼音编码“kaifangji”,再在候选框上重新选择“2”在候选词中选定“开放”后,再从候选框的选项“1.及、2集、3.即、4.机、5.级”中选择“2”,上屏为“开放集”,这时候系统将“开放集”学习成一个新词。由此可见,采用这种方法获取新词时,对正确的文字也需要删除后重新输入,该些文字才能被学习成一个新词,导致输入效率低,不符合用户的使用习惯,用户体验差。
【发明内容】
有鉴于此,本发明提供了一种生成词条的方法和装置,从用户的输入行为获取新词,更符合用户的输入习惯,可以提高用户输入的效率,提升用户体验。
具体技术方案如下:
一种生成词条方法,该方法包括:在获取到用户的回退行为后,执行以下流程:
将上一次上屏的字符串作为原字符串,记录本次回退行为回退的字符串对应的编码,并记录除回退的字符串之外剩余的原字符串;
获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条。
根据本发明一优选实施例,所述获取用户的回退行为,具体包括:
接收用户的输入行为;
对用户的输入行为进行分类识别,将输入退格键或删除键的输入行为识别为回退行为。
根据本发明一优选实施例,在所述接收用户的输入行为之后,还包括:
对用户的输入行为进行预处理,将与输入法无关的按键信息过滤去除,并对剩余的按键信息进行再编码。
根据本发明一优选实施例,所述对用户的输入行为进行分类识别,还包括:
将用户字符串确认输入到屏幕上的输入行为识别为上屏行为;
在将用户的输入行为识别为上屏行为之后,还包括:
记录上屏的字符串和对应的编码。
根据本发明一优选实施例,在所述记录本次回退行为回退的字符串对应的编码时,还包括:记录本次回退行为回退的次数;
在所述获取用户接续上屏的字符串对应的编码之前,还包括:
判断用户接续上屏的字符串的个数与回退的次数之间的关系,
如果用户接续上屏的字符串的个数与回退的次数相等,则继续执行所述获取用户接续上屏的字符串对应的编码的步骤;如果用户接续上屏的字符串的个数大于回退的次数,放弃针对本次回退行为的记录。
根据本发明一优选实施例,在所述用户接续上屏的过程中,累加记录用户接续上屏的字符串,当字符串个数等于回退的次数时,则获取累加的接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
根据本发明一优选实施例,所述上屏的字符串对应的编码是拼音编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的拼音与所述回退的字符串对应输入的拼音完全相同;或者
所述接续上屏的字符串对应输入的拼音的声母与所述回退的字符串对应输入的拼音的声母相同。
根据本发明一优选实施例,所述上屏的字符串对应的编码是笔划编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的笔划与所述回退的字符串对应输入的笔划完全相同。
根据本发明一优选实施例,在将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条之前,还包括:
判断是否有用户的确认行为,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条,所述确认行为包括:除了字母、数字和回退按键之外的其他按键,或者,停顿时间超过预设时间阈值。
根据本发明一优选实施例,在将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条之后,还包括:
判断生成的词条是否存在于已有词库中,如果是,将生成的词条添加到所述词库中。
一种生成词条的装置,该装置包括:
获取模块,用于获取用户的回退行为;
学习模块,用于在获取到用户的回退行为后,将上一次上屏的字符串作为原字符串,触发缓存模块;
所述缓存模块,用于记录本次回退行为回退的字符串对应的编码,并记录除回退的字符串之外剩余的原字符串;
所述学习模块,还用于获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条。
根据本发明一优选实施例,所述获取模块具体包括:
前端子模块,用于接收用户的输入行为;
分类子模块,用于对用户的输入行为进行分类识别,将输入退格键或删除键的输入行为识别为回退行为。
根据本发明一优选实施例,所述获取模块还包括:
预处理子模块,用于对所述前端子模块接收的用户的输入行为进行预处理,将与输入法无关的按键信息过滤去除,并对剩余的按键信息进行再编码。
根据本发明一优选实施例,所述分类子模块,还用于:
将用户字符串确认输入到屏幕上的输入行为识别为上屏行为;
所述学习模块获取到用户的上屏行为之后,触发所述缓存模块记录上屏的字符串和对应的编码。
根据本发明一优选实施例,所述缓存模块在记录本次回退行为回退的字符串对应的编码时,还用于:记录本次回退行为回退的次数;
所述学习模块具体包括:
判断子模块,用于判断用户接续上屏的字符串的个数与回退的次数之间的关系;
学习子模块,用于如果所述判断子模块判断出用户接续上屏的字符串的个数与回退的次数相等,则获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条;如果所述判断子模块判断出用户接续上屏的字符串的个数大于回退的次数,放弃针对本次回退行为的记录。
根据本发明一优选实施例,在所述用户接续上屏的过程中,所述学习子模块触发所述缓存模块累加记录用户接续上屏的字符串,当所述判断子模块判断出字符串个数等于回退的次数时,所述学习子模块获取累加的接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
根据本发明一优选实施例,所述上屏的字符串对应的编码是拼音编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的拼音与所述回退的字符串对应输入的拼音完全相同;或者
所述接续上屏的字符串对应输入的拼音的声母与所述回退的字符串对应输入的拼音的声母相同。
根据本发明一优选实施例,所述上屏的字符串对应的编码是笔划编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的笔划与所述回退的字符串对应输入的笔划完全相同。
根据本发明一优选实施例,所述学习子模块还用于在将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条之前,判断所述获取模块是否获取到用户的确认行为,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条,所述确认行为包括:除了字母、数字和回退按键之外的其他按键,或者,停顿时间超过预设时间阈值。
根据本发明一优选实施例,还包括:
新词确定模块,用于判断生成的词条是否存在于已有词库中,如果是,将生成的词条添加到所述词库中。
由以上技术方案可以看出,本发明提供的生成词条的方法和装置,基于用户的输入行为获取新词,利用用户的回退行为触发比较用户接续上屏的字符串与回退的字符串,将相符的接续上屏的字符串与剩余的字符串直接拼接成一个新词,使用户减少重复输入相同的字符串,可以提高用户输入的效率,更符合用户使用习惯,提升用户体验。
【附图说明】
图1为本发明实施例一提供的生成词条的方法流程图;
图2a为本发明实施例一提供的生成新词之前候选框示意图;
图2b为本发明实施例一提供的回退后再次输入的候选框示意图;
图2c为本发明实施例一提供的生成新词之后候选框示意图;
图3为本发明实施例二提供的生成词条的方法流程图;
图4为本发明实施例三提供的生成词条的装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1是本实施例提供的一种生成词条的方法流程图,如图1所示,该方法包括:
S101、接收用户的输入行为。
在输入法系统中,用户一般采用键盘等方式与计算机、手机等设备进行交互。用户按照一定规则通过按键输入,即可在设备上得到所需要的文字。本步骤则是接收用户输入的这些按键信息。
S102、对用户的输入行为进行分类识别。
识别用户的输入行为是否为上屏行为或回退行为,如果是上屏行为,则执行步骤S103,如果是回退行为,则执行步骤S104。
根据按键信息的不同,来识别用户的各种输入行为,包括:输入编码行为、选词行为、上屏行为、回退行为等。
根据预定义的规则,对按键信息进行识别和分类,识别用户的上屏行为和回退行为。比如,在候选框状态且光标位于末尾时,输入“空格”键,则识别上屏行为;如果在候选框状态且光标不位于末尾时,则认为是选词行为。
上屏行为是指用户将文字等字符串确认输入到屏幕上的输入行为,可以包括空格键(space)、回车键(enter)、标点符号、数字等按键,用户通过这些按键对候选框中的文字进行确认输入。
回退行为是指用户进行删除的输入行为,可以包括退格(backspace)键、删除键(delete)等按键,将已上屏的字符串进行回退删除。
将输入退格键或删除键的输入行为识别为回退行为;将用户确认字符串输入到屏幕上的输入行为识别为上屏行为。
对于识别为其他的输入行为时,可以采用现有的处理规则进行处理,本发明并不作限制。
S103、记录上屏的字符串和对应的编码。
上屏的字符串对应的编码是指用户在输入该些字符串时输入的按键信息。本发明采用的输入法可以是拼音输入法或笔划输入法等。对应不同的输入法,上屏的字符串对应的编码则可以是拼音或笔划编码。
以拼音编码为例,用户输入拼音串“kaifang”能够得到候选框“1、开放2、开房3、开方4、开5、凯”,按下空格键或者数字键“1”即可上屏得到字符串“开放”。记录上屏的字符串“开放”及对应的编码“kaifang”。
又如,用户拼音串“kaixinabc”,即可上屏字符串“开心abc”,则记录上屏的字符串“开心abc”及对应的编码“kaixinabc”。
采用笔划编码的输入方式时,与拼音编码相类似。
完成记录后,返回步骤S101,重新接收用户的输入行为。
S104、将上一次上屏的字符串作为原字符串,记录本次回退行为回退的字符串对应的编码,并记录除回退的字符串之外剩余的原字符串。
例如,用户输入“kaifangji”,候选框如图2a所示,出现“1.开房记、2.开放及、3.开放几、4.开放鸡、5.开放”等候选词,用户在误选“2”上屏“开放及”之后,进行回退操作。将上一次上屏的字符串“开放及”作为原字符串,记录回退的字符串对应的编码“ji”,剩余的原字符串“开放”。
值得说明的是,本步骤中涉及的回退行为指的是连续回退的行为,即从开始回退连续至结束回退的行为,可以包括多次连续输入的退格键或删除键。所述结束回退是指输入回退行为之外的其他输入行为,如上屏行为等。
S105、获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则执行步骤S106。
当再次接收到用户的上屏行为,则获取用户上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
当采用拼音编码时,所述编码相符包括:接续上屏的字符串对应输入的拼音与回退的字符串对应输入的拼音完全相同;或者,接续上屏的字符串对应输入的拼音的声母与回退的字符串对应输入的拼音的声母相同。
当采用笔划编码时,所述编码相符包括:接续上屏的字符串对应输入的笔划与回退的字符串对应输入的笔划完全相同。
例如,用户在输入“kaifangji”上屏“开放及”之后,回退了“及”,又再次输入“ji”,候选框如图2b所示,出现“1.及、2.级、3.集、4.急、5.机”等候选词,选“3”上屏“集”,则获取用户上屏的字符串对应的编码“ji”,比较与回退的字符串“及”对应的编码“ji”是否相符,判断的结果是相符,则执行步骤S106。否则,不符合本发明生成词条的条件,则返回步骤S101,重新接收用户的输入行为。
S106、将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条。
以拼音编码为例,用户在输入“kaifangji”上屏“开放及”之后,回退了“及”,又再次输入“ji”上屏“集”,则此时获取接续上屏的字符串“集”和对应的编码“ji”,判断到接续上屏的字符串对应的编码“ji”与上一次上屏之后回退的字符串对应的编码“ji”相同,则将剩余的原字符串“开放”与接续上屏的字符串“集”进行拼接生成一个词条“开放集”。
当然,如果用户再次输入“j”选定“集”上屏时,接续上屏的字符串“集”和对应的编码“j”,判断到接续上屏的字符串对应的编码“j”与上一次上屏之后回退的字符串对应的编码“ji”声母相同,也将剩余的原字符串“开放”与接续上屏的字符串“集”进行拼接生成一个词条“开放集”。
后续,当用户再次输入“kaifangji”时,候选框如图2c所示,出现“1.开放集、2.开放及、3.开放几、4.开放鸡、5.kaifangji”等候选词,用户可快速进行输入。
实施例二
图3是本实施例提供的生成词条的方法流程图,如图3所示,包括:
S301、接收用户的输入行为。
本步骤与实施例一中步骤S101相同,于此不再赘述。
S302、对用户的输入行为进行预处理。
将与输入法无关的按键信息过滤去除,并对剩余的按键信息进行再编码。所述与输入法无关的按键信息是指对输入法而言,不需要的按键行为。例如,功能键ctrl等按键。
对剩余的按键信息进行再编码是一个按键信息对应转换的过程,将机器输出的按键信息对应的按键符转换成程序中的编码。当然,也可以在程序中之间采用按键符,则无需进行转换。
S303、对用户的输入行为进行分类识别。
识别用户的输入行为是否为上屏行为或回退行为。
如果为上屏行为,则执行步骤S304,如果为回退行为,则执行步骤S305。如果为其他的输入行为,可以返回步骤S301。
S304、记录上屏的字符串和对应的编码。
步骤S304与实施例一中步骤S103对应相同,于此不再赘述。
S305、将上一次上屏的字符串作为原字符串,记录本次回退行为回退的字符串对应的编码和回退的次数,并记录除回退的字符串之外剩余的原字符串。
例如,用户输入“kaifangji”,上屏“开放及”之后,进行回退操作删除了“开放及”。则将上一次上屏的字符串“开放及”作为原字符串,本次回退行为的回退次数为3和回退的字符串对应的编码“kaifangji”,剩余的原字符串为空。
值得一提的是,记录的回退次数应不大于原字符串个数。如果回退次数大于原字符串个数,则不符合本发明生成新词的条件,则返回步骤S101,重新接收用户的输入行为。
S306、获取用户接续上屏的字符串,判断接续上屏的字符串个数与回退的次数之间的关系。
所述接续上屏包括一次上屏或多次上屏行为,在用户接续上屏的过程中,累加记录用户接续上屏的字符串。
如果用户接续上屏的字符串的个数与回退的次数相等,则执行步骤S307。
如果用户接续上屏的字符串的个数小于回退的次数,则累加记录用户接续上屏的字符串,当字符串个数等于回退的次数时,则执行步骤S307。
如果用户接续上屏的字符串的个数大于回退的次数,则不符合本发明生成新词的条件,放弃针对本次回退行为的记录,返回步骤S301,重新接收用户的输入行为。
例如,如果用户在“kaifangji”上屏“开放及”之后,回退了“开放及”,回退次数3次,又接续输入“kaifang”上屏“开放”,则此时接续上屏的字符串“开放”的字符串个数小于回退的次数,则继续执行步骤S306。如果又接收到用户输入“ji”上屏“集”,此时接续上屏的字符串“开放集”的字符串个数与回退的次数相等,则执行步骤S307。
如果上述例子中继续执行步骤S306时,用户不是输入“ji”,而是输入“shijian”上屏“时间”,则此时接续上屏的字符串“开放时间”的字符串个数(4个)大于回退的次数,则不符合本发明生成新词的条件,则返回步骤S301,重新接收用户的输入行为。
S307、获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
本步骤与实施例一中的步骤S106中的判断过程相同。
S308、将剩余的原字符串与接续上屏的字符串进行拼接生成一个词条。
如果用户在“kaifangji”上屏“开放及”之后,回退了“开放及”3次,依次输入“kai”上屏“开”,输入“fang”上屏“放”,输入“ji”上屏“集”,接续上屏的字符串“开放集”的字符串个数与回退的次数相等,则判断接续上屏的字符串对应的编码“kaifangji”是否与回退的字符串对应的编码“kaifangji”相符,由于编码相同,则将剩余的原字符串“”(为空)与接续上屏的字符串“开放集”进行拼接生成一个词条“开放集”。
值得一提的是,在将剩余的原字符串与接续上屏的字符串进行拼接生成一个词条之前,还包括:判断是否有用户的确认行为,如果是,则将剩余的原字符串与接续上屏的字符串生成一个词条。
所述确认行为包括:除了字母、数字和回退按键之外的其他按键,例如空格、回车、标点等按键。或者,停顿时间超过预设时间阈值,例如5s以上。
S309、判断生成的词条是否存在于已有词库中,如果是,将生成的词条添加到所述词库中。
将生成的词条“开放集”与已有词库中进行对比,如果已有词库不存在“开放集”,则认为该词条“开放集”为新词,添加到已有词库中。
在这个已有词库可以是该用户的词库,也可以是整个输入法系统的已有词库。在将新词添加到已有词库之前,还可以包括:统计该新词在整个输入法系统中的出现频率,将满足预设阈值的新词添加到已有词库中。
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的生成词条的装置进行详细描述。
实施例三
图4是本实施例提供的一种生成词条的装置示意图。如图4所示,该装置包括:获取模块10、学习模块20、缓存模块30和新词确定模块40。
获取模块10,用于获取用户的输入行为,包括回退行为和上屏行为。具体包括:前端子模块101、预处理子模块102和分类子模块103。
前端子模块101,用于接收用户的输入行为。
在输入法系统中,用户一般采用键盘等方式与计算机、手机等设备进行交互。用户按照一定规则通过按键输入,即可在设备上得到所需要的文字。本步骤则是接收用户输入的这些按键信息。
预处理子模块102,用于对前端子模块101接收的用户的输入行为进行预处理,将与输入法无关的按键信息过滤去除,并对剩余的按键信息进行再编码。
将与输入法无关的按键信息过滤去除,并对剩余的按键信息进行再编码。所述与输入法无关的按键信息是指对输入法而言,不需要的按键行为。例如,功能键ctrl等按键。
对剩余的按键信息进行再编码是一个按键信息对应转换的过程,将机器输出的按键信息对应的按键符转换成程序中的编码。当然,也可以在程序中之间采用按键符,则无需进行转换。
分类子模块103,用于对用户的输入行为进行分类识别。
根据按键信息的不同,来识别用户的各种输入行为,包括:输入编码行为、选词行为、上屏行为、回退行为等。
根据预定义的规则,对按键信息进行识别和分类,识别用户的上屏行为和回退行为。比如,在候选框状态且光标位于末尾时,输入“空格”键,则识别上屏行为;如果在候选框状态且光标不位于末尾时,则认为是选词行为。
上屏行为是指用户将文字等字符串确认输入到屏幕上的输入行为,可以包括空格键(space)、回车键(enter)、标点符号、数字等按键,用户通过这些按键对候选框中的文字进行确认输入。
回退行为是指用户进行删除的输入行为,可以包括退格(backspace)键、删除键(delete)等按键,将已上屏的字符串进行回退删除。
分类子模块103,将输入退格键或删除键的输入行为识别为回退行为;将用户确认字符串输入到屏幕上的输入行为识别为上屏行为。
学习模块20,用于对分类子模块103的识别结果,分别进行处理。
缓存模块30,用于受到学习模块20的触发时,记录相应的内容。
对于用户的上屏行为,学习模块20触发缓存模块30记录上屏的字符串和对应的编码。
上屏的字符串对应的编码是指用户在输入该些字符串时输入的按键信息。本发明采用的输入法可以是拼音输入法或笔划输入法等。对应不同的输入法,上屏的字符串对应的编码则可以是拼音或笔划编码。
以拼音编码为例,用户输入拼音串“kaifang”能够得到候选框“1、开放2、开房3、开方4、开5、凯”,按下空格键或者数字键“1”即可上屏得到字符串“开放”。缓存模块30记录上屏的字符串“开放”及对应的编码“kaifang”。
又如,用户拼音串“kaixinabc”,即可上屏字符串“开心abc”,缓存模块30则记录上屏的字符串“开心abc”及对应的编码“kaixinabc”。
采用笔划编码的输入方式时,与拼音编码相类似。
对于用户的回退行为,学习模块20将上一次上屏的字符串作为原字符串,触发缓存模块30记录本次回退行为回退的字符串对应的编码,并记录除回退的字符串之外剩余的原字符串。
例如,用户输入“kaifangji”,候选框如图2a所示,出现“1.开房记、2.开放及、3.开放几、4.开放鸡、5.开放”等候选词,用户在误选“2”上屏“开放及”之后,进行回退操作。将上一次上屏的字符串“开放及”作为原字符串,缓存模块30记录回退的字符串对应的编码“ji”,剩余的原字符串“开放”。
值得说明的是,所述回退行为指的是连续回退的行为,即从开始回退连续至结束回退的行为,可以包括多次连续输入的退格键或删除键。所述结束回退是指输入回退行为之外的其他输入行为,如上屏行为等。
而后,学习模块20还用于获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条。否则,不符合本发明生成词条的条件,则返回获取模块10,重新接收用户的输入行为。
当学习模块20再次接收到用户的上屏行为,则获取用户上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
当采用拼音编码时,所述编码相符包括:接续上屏的字符串对应输入的拼音与回退的字符串对应输入的拼音完全相同;或者,接续上屏的字符串对应输入的拼音的声母与回退的字符串对应输入的拼音的声母相同。
当采用笔划编码时,所述编码相符包括:接续上屏的字符串对应输入的笔划与回退的字符串对应输入的笔划完全相同。
以拼音编码为例,用户在输入“kaifangji”上屏“开放及”之后,回退了“及”,又再次输入“ji”,候选框如图2b所示,出现“1.及、2.级、3.集、4.急、5.机”等候选词,选“3”上屏“集”,则学习模块20获取用户上屏的字符串对应的编码“ji”,比较与回退的字符串“及”对应的编码“ji”是否相符,判断的结果是相符,则将剩余的原字符串“开放”与接续上屏的字符串“集”进行拼接生成一个词条“开放集”。
当然,如果用户再次输入“j”选定“集”上屏时,接续上屏的字符串“集”和对应的编码“j”,判断到接续上屏的字符串对应的编码“j”与上一次上屏之后回退的字符串对应的编码“ji”声母相同,也将剩余的原字符串“开放”与接续上屏的字符串“集”进行拼接生成一个词条“开放集”。
后续,当用户再次输入“kaifangji”时,候选框如图2c所示,出现“1.开放集、2.开放及、3.开放几、4.开放鸡、5.kaifangji”等候选词,用户可快速进行输入。
值得说明的是,缓存模块30在记录回退行为回退的字符串对应的编码时,还包括:记录本次回退行为回退的次数。
例如,用户输入“kaifangji”,上屏“开放及”之后,进行回退操作删除了“开放及”。则将上一次上屏的字符串“开放及”作为原字符串,本次回退行为的回退次数为3和回退的字符串对应的编码“kaifangji”,剩余的原字符串为空。
记录的回退次数应不大于原字符串个数。如果回退次数大于原字符串个数,则不符合本发明生成新词的条件,则放弃针对本次回退行为的记录,重新触发获取模块10获取用户的输入行为。
学习模块20包括判断子模块201和学习子模块202。
判断子模块201,用于判断用户接续上屏的字符串的个数与回退的次数之间的关系。
学习子模块202,用于如果判断子模块201判断出用户接续上屏的字符串的个数与回退的次数相等,则获取用户接续上屏的字符串对应的编码,比较与回退的字符串对应的编码是否相符,如果是,则将剩余的原字符串与接续上屏的字符串进行拼接生成一个词条。
所述接续上屏包括一次上屏或多次上屏行为,在用户接续上屏的过程中,学习子模块202触发缓存模块30累加记录用户接续上屏的字符串,当判断子模块201判断出字符串个数等于回退的次数时,学习子模块202则获取累加的接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
如果判断子模块201判断出用户接续上屏的字符串的个数大于回退的次数,则不符合本发明生成新词的条件,放弃针对本次回退行为的记录,重新接收用户的输入行为。
例如,如果用户在“kaifangji”上屏“开放及”之后,回退了“开放及”,回退次数3次,又接续输入“kaifang”上屏“开放”,则此时接续上屏的字符串“开放”的字符串个数小于回退的次数,则继续接收用户的输入行为,累加记录用户接续上屏的字符串。如果又接收到用户输入“ji”上屏“集”,此时接续上屏的字符串“开放集”的字符串个数与回退的次数相等,则判断接续上屏的字符串对应的编码“kaifangji”是否与回退的字符串对应的编码“kaifangji”相符,由于编码相同,则将剩余的原字符串:“”(为空)与接续上屏的字符串“开放集”进行拼接生成一个词条“开放集”。
如果上述例子中继续接收用户的输入行为时,用户不是输入“ji”,而是输入“shijian”上屏“时间”,则此时接续上屏的字符串“开放时间”的字符串个数(4个)大于回退的次数,则不符合本发明生成词条的条件,则返回重新接收用户的输入行为。
另外,学习子模块202还用于:在将剩余的原字符串与接续上屏的字符串进行拼接生成一个词条之前,判断获取模块10是否获取到用户的确认行为,如果是,则将剩余的原字符串与接续上屏的字符串生成一个词条。
所述确认行为包括:除了字母、数字和回退按键之外的其他按键,例如空格、回车、标点等按键。或者,停顿时间超过预设时间阈值,例如5s以上。
新词确定模块40,用于判断学习模块20生成的词条是否存在于已有词库中,如果是,将生成的词条添加到所述词库中。
将生成的词条“开放集”与已有词库中进行对比,如果已有词库不存在“开放集”,则认为该词条“开放集”为新词,添加到已有词库中。
在这个已有词库可以是该用户的词库,也可以是整个输入法系统的已有词库。在将新词添加到已有词库之前,还可以包括:统计该新词在整个输入法系统中的出现频率,将满足预设阈值的新词添加到已有词库中。
现有输入法的新词学习方法,需要用户在候选词中选择好所需要的文字,然后一次上屏,才能学习成一个新词。比如,用户期望输入“开放集”,如果用户不小心选错了候选词时,选成了“开放机”,此时用户需要进行回退删除修改,如果仅删除了“机”,再上屏“集”,现有输入法并不会将“开放集”识别成一个新词。通过本发明提供的方法和装置,可以在仅删除了“机”,再上屏“集”,则可以将“开放集”学习成一个新词。相比现有技术,可以提高输入的效率,符合用户的使用习惯,提升用户体验。
本发明可以应用各种具有信息输入需求的系统环境或配置中,例如:计算机、平板电脑、手持设备或者便携式设备等等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种生成词条的方法,其特征在于,获取到用户的回退行为后,执行以下流程:
将上一次上屏的字符串作为原字符串,记录本次回退行为回退的字符串对应的编码,并记录除回退的字符串之外剩余的原字符串;
获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条。
2.根据权利要求1所述的方法,其特征在于,所述获取用户的回退行为,具体包括:
接收用户的输入行为;
对用户的输入行为进行分类识别,将输入退格键或删除键的输入行为识别为回退行为。
3.根据权利要求2所述的方法,其特征在于,在所述接收用户的输入行为之后,还包括:
对用户的输入行为进行预处理,将与输入法无关的按键信息过滤去除,并对剩余的按键信息进行再编码。
4.根据权利要求2所述的方法,其特征在于,所述对用户的输入行为进行分类识别,还包括:
将用户字符串确认输入到屏幕上的输入行为识别为上屏行为;
在将用户的输入行为识别为上屏行为之后,还包括:
记录上屏的字符串和对应的编码。
5.根据权利要求1所述的方法,其特征在于,在所述记录本次回退行为回退的字符串对应的编码时,还包括:记录本次回退行为回退的次数;
在所述获取用户接续上屏的字符串对应的编码之前,还包括:
判断用户接续上屏的字符串的个数与回退的次数之间的关系,
如果用户接续上屏的字符串的个数与回退的次数相等,则继续执行所述获取用户接续上屏的字符串对应的编码的步骤;如果用户接续上屏的字符串的个数大于回退的次数,放弃针对本次回退行为的记录。
6.根据权利要求5所述的方法,其特征在于,在所述用户接续上屏的过程中,累加记录用户接续上屏的字符串,当字符串个数等于回退的次数时,则获取累加的接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
7.根据权利要求1所述的方法,其特征在于,所述上屏的字符串对应的编码是拼音编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的拼音与所述回退的字符串对应输入的拼音完全相同;或者
所述接续上屏的字符串对应输入的拼音的声母与所述回退的字符串对应输入的拼音的声母相同。
8.根据权利要求1所述的方法,其特征在于,所述上屏的字符串对应的编码是笔划编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的笔划与所述回退的字符串对应输入的笔划完全相同。
9.根据权利要求1所述的方法,其特征在于,在将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条之前,还包括:
判断是否有用户的确认行为,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条,所述确认行为包括:除了字母、数字和回退按键之外的其他按键,或者,停顿时间超过预设时间阈值。
10.根据权利要求1所述的方法,其特征在于,在将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条之后,还包括:
判断生成的词条是否存在于已有词库中,如果是,将生成的词条添加到所述词库中。
11.一种生成词条的方法装置,其特征在于,包括:
获取模块,用于获取用户的回退行为;
学习模块,用于在获取到用户的回退行为后,将上一次上屏的字符串作为原字符串,触发缓存模块;
所述缓存模块,用于记录本次回退行为回退的字符串对应的编码,并记录除回退的字符串之外剩余的原字符串;
所述学习模块,还用于获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条。
12.根据权利要求11所述的装置,其特征在于,所述获取模块具体包括:
前端子模块,用于接收用户的输入行为;
分类子模块,用于对用户的输入行为进行分类识别,将输入退格键或删除键的输入行为识别为回退行为。
13.根据权利要求12所述的装置,其特征在于,所述获取模块还包括:
预处理子模块,用于对所述前端子模块接收的用户的输入行为进行预处理,将与输入法无关的按键信息过滤去除,并对剩余的按键信息进行再编码。
14.根据权利要求12所述的装置,其特征在于,所述分类子模块,还用于:
将用户字符串确认输入到屏幕上的输入行为识别为上屏行为;
所述学习模块获取到用户的上屏行为之后,触发所述缓存模块记录上屏的字符串和对应的编码。
15.根据权利要求11所述的装置,其特征在于,所述缓存模块在记录本次回退行为回退的字符串对应的编码时,还用于:记录本次回退行为回退的次数;
所述学习模块具体包括:
判断子模块,用于判断用户接续上屏的字符串的个数与回退的次数之间的关系;
学习子模块,用于如果所述判断子模块判断出用户接续上屏的字符串的个数与回退的次数相等,则获取用户接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条;如果所述判断子模块判断出用户接续上屏的字符串的个数大于回退的次数,放弃针对本次回退行为的记录。
16.根据权利要求15所述的装置,其特征在于,在所述用户接续上屏的过程中,所述学习子模块触发所述缓存模块累加记录用户接续上屏的字符串,当所述判断子模块判断出字符串个数等于回退的次数时,所述学习子模块获取累加的接续上屏的字符串对应的编码,比较与所述回退的字符串对应的编码是否相符。
17.根据权利要求11所述的装置,其特征在于,所述上屏的字符串对应的编码是拼音编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的拼音与所述回退的字符串对应输入的拼音完全相同;或者
所述接续上屏的字符串对应输入的拼音的声母与所述回退的字符串对应输入的拼音的声母相同。
18.根据权利要求11所述的装置,其特征在于,所述上屏的字符串对应的编码是笔划编码;
所述编码相符包括:
所述接续上屏的字符串对应输入的笔划与所述回退的字符串对应输入的笔划完全相同。
19.根据权利要求15所述的装置,其特征在于,所述学习子模块,还用于在将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条之前,判断所述获取模块是否获取到用户的确认行为,如果是,则将所述剩余的原字符串与所述接续上屏的字符串进行拼接生成一个词条,所述确认行为包括:除了字母、数字和回退按键之外的其他按键,或者,停顿时间超过预设时间阈值。
20.根据权利要求11所述的装置,其特征在于,还包括:
新词确定模块,用于判断生成的词条是否存在于已有词库中,如果是,将生成的词条添加到所述词库中。
CN201210145606.5A 2012-05-11 2012-05-11 一种生成词条的方法和装置 Active CN103389800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210145606.5A CN103389800B (zh) 2012-05-11 2012-05-11 一种生成词条的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210145606.5A CN103389800B (zh) 2012-05-11 2012-05-11 一种生成词条的方法和装置

Publications (2)

Publication Number Publication Date
CN103389800A true CN103389800A (zh) 2013-11-13
CN103389800B CN103389800B (zh) 2016-08-17

Family

ID=49534093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210145606.5A Active CN103389800B (zh) 2012-05-11 2012-05-11 一种生成词条的方法和装置

Country Status (1)

Country Link
CN (1) CN103389800B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527752A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106933382A (zh) * 2017-03-17 2017-07-07 北京小米移动软件有限公司 更新输入法词库的方法及装置
CN113239258A (zh) * 2021-05-19 2021-08-10 北京百度网讯科技有限公司 提供查询建议的方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178741A (zh) * 2007-12-24 2008-05-14 腾讯科技(深圳)有限公司 一种更新用户词库的方法及装置
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
US20090058814A1 (en) * 2007-08-31 2009-03-05 Dan Rubanovich Handheld Electronic Device and Associated Method Providing Advanced Text Editing Function in a Text Disambiguation Environment
CN101441524A (zh) * 2008-11-26 2009-05-27 腾讯科技(深圳)有限公司 输入法中候选内容的生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
US20090058814A1 (en) * 2007-08-31 2009-03-05 Dan Rubanovich Handheld Electronic Device and Associated Method Providing Advanced Text Editing Function in a Text Disambiguation Environment
CN101178741A (zh) * 2007-12-24 2008-05-14 腾讯科技(深圳)有限公司 一种更新用户词库的方法及装置
CN101441524A (zh) * 2008-11-26 2009-05-27 腾讯科技(深圳)有限公司 输入法中候选内容的生成方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527752A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106527752B (zh) * 2016-09-23 2019-03-19 百度在线网络技术(北京)有限公司 一种用于提供输入候选项的方法与装置
CN106933382A (zh) * 2017-03-17 2017-07-07 北京小米移动软件有限公司 更新输入法词库的方法及装置
CN113239258A (zh) * 2021-05-19 2021-08-10 北京百度网讯科技有限公司 提供查询建议的方法、装置、电子设备和存储介质
CN113239258B (zh) * 2021-05-19 2023-06-27 北京百度网讯科技有限公司 提供查询建议的方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN103389800B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
US9508028B2 (en) Converting text strings into number strings, such as via a touchscreen input
KR101586890B1 (ko) 입력 처리 방법 및 장치
CN101241514B (zh) 一种生成纠错数据库的方法、自动纠错的方法和系统
CN101221576B (zh) 一种能够实现自动翻译的输入方法及装置
CN110020422A (zh) 特征词的确定方法、装置和服务器
CN106484131B (zh) 一种输入纠错方法和输入法装置
CN105701398A (zh) 一种开启辅助功能权限的方法、装置及电子设备
CN107918496B (zh) 一种输入纠错方法和装置、一种用于输入纠错的装置
CN104598507A (zh) 信息搜索方法及装置
CN101520693A (zh) 一种批量信息快速输入的方法及系统
JP2013206141A (ja) 文字入力装置、文字入力方法、及び文字入力プログラム
KR20150083173A (ko) 휴대 단말의 텍스트 편집 장치 및 그 방법
CN107665046A (zh) 一种输入方法和装置、一种用于输入的装置
CN103389800A (zh) 一种生成词条的方法和装置
CN106886294A (zh) 一种输入法纠错方法和装置
CN108737634B (zh) 语音输入方法及装置、计算机装置和计算机可读存储介质
CN109002183A (zh) 一种信息输入的方法及装置
CN111209367A (zh) 信息查找方法、信息查找装置、电子设备及存储介质
CN112764734B (zh) 代码编辑的辅助方法、装置及电子设备
CN104346052A (zh) 用于输入汉字的方法和装置
CN104076945B (zh) 用于在终端中显示输入键盘的装置和方法
CN112558784A (zh) 输入文字的方法、装置和电子设备
CN103631436A (zh) 手写输入方法及终端
US8386236B2 (en) Method for prompting by suggesting stroke order of chinese character, electronic device, and computer program product
CN103941979A (zh) 一种在移动设备中输入文字的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant