CN109271037B - 一种纠错词库的建立方法和装置 - Google Patents

一种纠错词库的建立方法和装置 Download PDF

Info

Publication number
CN109271037B
CN109271037B CN201710570569.5A CN201710570569A CN109271037B CN 109271037 B CN109271037 B CN 109271037B CN 201710570569 A CN201710570569 A CN 201710570569A CN 109271037 B CN109271037 B CN 109271037B
Authority
CN
China
Prior art keywords
character string
input
candidate
character
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710570569.5A
Other languages
English (en)
Other versions
CN109271037A (zh
Inventor
左艳波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201710570569.5A priority Critical patent/CN109271037B/zh
Publication of CN109271037A publication Critical patent/CN109271037A/zh
Application granted granted Critical
Publication of CN109271037B publication Critical patent/CN109271037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Abstract

本申请实施例公开了一种纠错词库的建立方法和装置,该方法包括:识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;若识别出用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存第一字符串与第二字符串的对应关系,第二输入行为是后于该第一输入行为产生的、且与第一输入行为相邻产生的输入行为,第一字符串在该第一输入行为输入字符串中所处的音节位置与第二字符串在该第二输入行为输入字符串中所处的音节位置相同;根据第一字符串与第二字符串的对应关系建立针对用户的纠错词库。可见,该纠错词库可以有效的为用户个性化的错输行为习惯进行纠错,提高用户的输入效率。

Description

一种纠错词库的建立方法和装置
技术领域
本申请涉及输入法领域,特别是涉及一种纠错词库的建立方法和装置。
背景技术
用户可以使用输入法进行文字输入,在一些语种例如汉语的输入情况下,所需输入的文字不能直接通过传统的键盘输入,而需要先输入字符组成的字符串,然后再从输入法根据字符串所提供的候选项中选择所需输入的文字。
用户在使用输入法输入字符串时可能会出现输错的情况,即输入的字符串与所需输入文字对应的字符串不相符,例如输入的字符串与所需输入文字对应的字符串相比缺失了若干字符、字符先后关系改变,错误输入的某些字符等。
输错了字符串可能导致对应该字符串的候选项中并没有用户所需的文字,为了能够继续文字的输入,用户需要修改所述输错了的字符串或者重新输入字符串,降低了用户的输入体验。
发明内容
为了解决上述技术问题,本申请提供了一种纠错词库的建立方法和装置,通过该纠错词库可以有效的对该用户输入行为中输错的字符串进行纠错。
第一方面,本申请提供了一种纠错词库的建立方法,该方法包括:
识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
若识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。
可选的,所述保存第一字符串与第二字符串的对应关系,包括:
记录识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的次数;
若所述次数满足阈值,保存所述第一字符串与第二字符串的对应关系。
可选的,所述第二字符串为在所述第一输入行为中所输入第一字符串的基础上修改得到的;或者
所述第二字符串为在取消了所述第一输入行为所输入字符串后输入的。
可选的,所述方法还包括:
若获取了所述用户输入的所述第一字符串,根据所述第一字符串从所述纠错词库查询得到所述第二字符串;
将所述第二字符串对应的候选字作为所述用户输入的所述第一字符串对应的候选字。
可选的,在对所述第一字符串对应的候选字进行展示时,所述方法还包括:
在所述第一字符串对应的候选字展示界面中的部分候选字展示位置展示所述第二字符串对应的候选字,所述候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置。
第二方面,本申请提供了一种纠错词库的建立装置,该装置包括识别单元、保存单元和建立单元:
所述识别单元,用于识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
所述保存单元,用于若所述识别单元识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
所述建立单元,用于根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。
可选的,所述保存单元包括:
记录子单元,用于记录识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的次数;
保存子单元,用于若所述记录子单元所记录的所述次数满足阈值,保存所述第一字符串与第二字符串的对应关系。
可选的,所述第二字符串为在所述第一输入行为中所输入第一字符串的基础上修改得到的;或者
所述第二字符串为在取消了所述第一输入行为所输入字符串后输入的。
可选的,所述装置还包括替换单元和查询单元:
所述查询单元,用于若获取了所述用户输入的所述第一字符串,根据所述第一字符串从所述纠错词库查询得到所述第二字符串;
所述替换单元,用于将所述第二字符串对应的候选字作为所述用户输入的所述第一字符串对应的候选字。
可选的,所述装置还包括展示单元:
所述展示单元,用于在所述第一字符串对应的候选字展示界面中的部分候选字展示位置展示所述第二字符串对应的候选字,所述候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置。
第三方面,本申请提供了一种纠错词库的建立装置,该装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
若识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。
第四方面,本申请提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行第一方面中所述的方法。
由上述技术方案可以看出,通过识别用户输入字符串的输入行为,当发现该用户在第一输入行为中输入了字符串例如第一字符串,但是没有选择所展示的候选项,却在后续的第二输入行为中,从所输入字符串例如第二字符串对应的候选项中选择了候选项上屏,则可以从该用户相邻的两次输入行为确定出用户输错了字符串,将实际想输入的第二字符串错输为第一字符串,故可以保存第一字符串与第二字符串的对应关系,并根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。由于该纠错词库是根据该用户自身的输入行为建立的,可以较为准确的体现出该用户的个性化输入习惯,故通过该纠错词库可以有效的字符串用户个性化的错输行为习惯进行纠错,提高用户的输入效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种纠错词库的建立方法的方法流程图;
图2为本申请实施例提供的一种纠错词库的建立装置的组成示意图;
图3为本申请实施例提供的一种纠错词库的建立装置作为终端时的结构框图;
图4为本申请实施例提供的一些实施例中服务器的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
用户进行文字输入时,输入法基于用户输入的字符串,将该字符串对应的候选项展示给用户,接着,用户从该字符串对应展示的候选项中选择需要输入的文字。因此,当用户输错了字符串,通常会导致在展示的候选项中找不到所需输入文字,只能重新输入字符串或修改原来输入的字符串,输入效率不高。
传统方式提供一种针对这种输错字符串的纠错机制,通过预先建立的纠错模型实现,该纠错模型中一般保存了常见的输错字符串A和实际应该输入字符串B之间对应关系,从而当检测到用户输入的字符串与纠错模型中的字符串A一致时,可以将该用户输入的字符串在纠错模型中对应的字符串B作为该用户实际输入的字符串,从而获取并提供字符串B所对应的候选项给该用户。若该用户确实输错了字符串,且实际想要输入的就是字符串B,那么这时输入法所展示的候选项中应该就有用户想要输入的文字,免去了该用户修改或重输字符串的操作,提高了输入效率。
不过由于该纠错模型中所保存的字符串A与字符串B的对应关系一般是依据大数据处理后得到的,导致该纠错模型所体现的主要是用户普遍容易输错字符串的情况,这种用户普遍容易输错字符串的情况可以理解为大部分用户都容易在输入字符串B时将字符串B输成了字符串A的情况。但是用户在使用输入法时,不同用户可能具有不同的输入习惯或速度节奏,那么不同用户所造成的输入错误实际上差别是比较大的,有可能用户a虽然容易出现如纠错模型所体现的普遍输入错误,但是还会因为自身习惯出现其他的输入错误问题;有可能用户b由于输入习惯较好,并不容易出现如纠错模型所体现的普遍输入错误。可见,如果在字符串纠错时都使用同样的纠错模型进行千人一面的纠错,将难以针对使用者自身的“个性化”输错情况进行纠错,难以有效提高用户的输入效率。
故为此,本申请实施例提出了一种纠错词库的建立方法和装置,希望能够针对不同用户建立有针对性的纠错词库,从而可以针对用户由于自身输入习惯导致的字符串输入错误进行纠错,以提高用户的输入效率。
本申请实施例中引入了纠错词库,该纠错词库中包括了至少一对字符串间的对应关系,例如第一字符串与第二字符串的对应关系。第二字符串可以理解为用户希望输入的字符串,第一字符串可以理解为该用户输入第二字符串时错误输入的字符串,即希望输入第二字符串却输成了第一字符串的情况。纠错词库一般情况下与使用输入法的用户一一对应,这种情况下,一个纠错词库中保存的对应关系为根据这个词库所对应用户的输入行为确定的;或者,该纠错词库也可以与多个用户对应,这种情况下,一个纠错词库中保存的对应关系为根据这个词库所对应多个用户的输入行为确定的。
在本申请实施例中,输入法可以根据用户输入的字符串展示对应的候选项,用户所输入的字符串可以与输入法的输入规则相关,例如中文拼音输入法中,用户输入的字符串可以由拼音组成,当然,该字符串除了包括拼音以外,还可以包括数字、符号等。输入法可以针对用户输入的字符串获取并展示对应的候选项以供用户选择,一个候选项可以包括一个或多个文字,不同语种的输入法对应的文字不同,例如汉语输入法所展示的候选项可以是汉字,而候选字可以理解为一个文字,在汉语输入法中一个候选字可以是一个汉字。可以理解的是,当一候选项只包括一个文字时,该候选项也可以理解为一个候选字。
为了便于描述,在之后的实施例中,将主要以输入法为中文拼音输入法,字符串中包括拼音串为例进行说明。
本申请实施例所提出的字符串可以理解为用户输入的字符串中的一部分或全部,也就是说,用户输入的字符串中可以包括一个字符串,也可以包括多个字符串。一个字符串可以对应一个或多个候选字,故一个字符串的长度与其所对应的候选字数量相关,当一个字符串对应的候选字为一个汉字例如“好”时,这个字符串可以为“hao”;当一个字符串对应的候选字为多个汉字例如“好人”时,这个字符串可以为“haoren”或者“hao’ren”,其中的’为分音符,一般由输入法自动生成,也可以由用户输入,分音符用于将不同汉字对应的字符串分开便于用户查看;当一个字符串为用户输入字符串的一部分时,例如当用户输入的字符串对应的候选项包括“你是个好人”,并且该用户输入的字符串中的部分字符串对应的候选字为“好人”,那么该用户输入的字符串可以为“nishigehaoren”,而该部分字符串可以为“haoren”。
在汉语中一般一个汉字的字符串即为一个音节,即一个音节对应一个候选字,而当一个字符串对应的候选字为多个汉字时,每个音节在该字符串中的位置即音节位置,例如汉字“好人”对应的字符串为“haoren”,那么该字符串“haoren”中存在两个音节,分别为字符串“hao”和字符串“ren”,则字符串“hao”在字符串“haoren”中所处的音节位置为第一个音节位置,字符串“ren”在字符串“haoren”中所处的音节位置为第二个音节位置。
其中,一个音节可以是一个字符,也可以是多个字符,例如,在输入法中输入一个包括多个字符的音节“hao”,可以对应地输入一个汉字“好”,而在输入法中输入一个只包括一个字符的音节“h”,同样也可以对应地输入一个汉字“好”;再例如,在输入法中输入两个都包括多个字符的音节“hao”、“ren”,可以对应地输入两个汉字“好人”,而在输入法中输入两个都包括一个字符的音节“h”、“r”,同样可以对应地输入两个汉字“好人”,当然,在输入法中输入一个只包括一个字符的音节“h”和一个包括多个字符的音节“ren”,即两个音节“hren”,也同样可以对应地输入两个汉字“好人”。因此,本申请实施例所提到的字符串中可以包括一个音节或多个音节,也就是说,字符串中可以包括一个字符或多个字符。
由于纠错词库中包括了容易输错字符串(第一字符串)与实际应输入的正确字符串(第二字符串)之间的对应关系,故可以根据该纠错词库判断用户输入字符串中包括的字符串是否为容易输错的字符串,例如第一字符串,在确定用户输入了第一字符串时,将第二字符串对应的候选字作为用户输入的第一字符串对应的候选字,并展示给用户选择。由于第二字符串所对应的候选字很有可能是用户实际想要选择的候选字,故用户可以选择所展示的候选字而不必重新输入或修改所输入的字符串,提高了输入效率。
接下来,将结合附图说明本申请实施例提供的纠错词库的建立方法,如图1所示,该方法包括:
S101:识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字。
一次输入行为可以是用户通过输入法输入字符的行为,以希望通过针对所输入字符形成的字符串展示的候选项中选择需要向电子设备中输入的文字。当一次输入行为中输入字符发生中断时,例如出现了删除字符、移动输入焦点、取消输入等情况发生时,表示了本次输入行为的结束,或者,当一次输入行为中出现选择候选项的情况时,也可以认为本次输入行为的结束。一次输入行为中的字符串可以理解为在这次输入行为结束时,字符串展示界面中所展示的字符串。
当用户想要将一字符串输入电子设备中时,用户可以通过使用实体键盘或者携有虚拟键盘的移动设备等输入装置,将用户想要输入的字符串输入到电子设备中。
由于一个字符串中可以包括一个音节或多个音节,并且一个音节可以对应一个候选字。因此,一个字符串可以对应一个候选字,也可以对应多个候选字。
具体地,当用户输入的字符串中只包括一个音节,该音节包括多个字符时,该字符串可以对应一个候选字,比如,用户想要输入汉字“食”,由于汉字“食”对应的一个音节为“shi”,因此,用户输入的字符串为“shi”,即用户输入的字符串“shi”对应一个候选字“食”。
当用户输入的字符串包括多个音节,这些音节都包括多个字符时,该字符串可以对应多个候选字,比如,用户想要输入汉字“食堂”,由于汉字“食堂”对应的两个音节分别为“shi”、“tang”,因此,用户输入的字符串为“shitang”,即用户输入的字符串“shitang”对应两个候选字“食堂”。
当用户输入的字符串中只包括一个音节,该音节只包括一个字符时,该字符串也可以对应一个候选字,比如,用户想要输入汉字“食”时,可以通过输入一个字符“s”,从而选择候选字“食”,即用户输入的一个字符“s”对应一个候选字“食”。
当用户输入的字符串中包括多个音节,这些音节都只包括一个字符时,该字符串也可以对应多个候选字,比如,用户想要输入汉字“食堂”时,可以通过输入两个字符“st”,从而选择候选项“食堂”,即用户输入的两个字符“st”对应两个候选字“食堂”。
S102:若识别出用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存该第一字符串与该第二字符串的对应关系,该第二输入行为是后于该第一输入行为产生的、且与该第一输入行为相邻产生的输入行为,该第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同。
本申请实施例中,第一输入行为和第二输入行为分别属于一次输入行为,其中,第一输入行为可以是用户在输入字符的过程中,发生中断并且没有选择候选字的行为。为了便于描述,可以将第一输入行为中输入的字符串作为第一字符串。
其中,第一字符串中的第一字符串可以包括一个音节或多个音节,即第一字符串可以对应一个候选字,也可以对应多个候选字,具体地:
当用户由于发音问题或者输入习惯,比如在想要输入翘舌音“sh”、“zh”、“ch”时,总是习惯性地错误输入为平舌音“s”、“z”、“c”,在这种情况下,为了避免用户经常由于错误输入同一个音节,从而导致用户在输入包括该音节的字符串后,总是需要修改所输字符串或重新输入字符串。故此,可以将用户在输入字符串的过程中,经常错误输入的音节作为第一字符串,也就是说,可以将第一输入行为所输入的第一字符串中的一个音节作为第一字符串,即第一字符串可以对应一个候选字。例如,由于用户习惯性地将字符串“shi”输入为字符串“si”,当用户想要输入多个汉字即“食堂”时,将字符串“shitang”错误输入为字符串“sitang”,之后,用户发现错误输入了字符串“sitang”中的“si”,因此,用户需要修改字符串中的“si”,假设用户通过移动输入焦点,将焦点从字符串的末尾移动到“s”和“i”之间,且没有选择“si”对应的候选字,此时,可以认为这次输入行为为第一输入行为,输入焦点所停留的音节位置对应的音节可以作为第一字符串,即由于输入焦点停留在第一个音节“si”的位置中,因此,可以将第一字符串“sitang”中的一个音节“si”作为第一字符串。
当用户在输入汉语固定搭配比如“中国”时,由于输入字符速度过快,总是习惯性地将“zhongguo”错误输入为“zhonguo”,也就是说,用户的输入习惯是希望连续输入“zhongguo”时,才容易将“zhongguo”输成“zhonguo”,有可能在单独输入“guo”时并不会出现输入错误的情况。在此情况下,为了避免用户经常由于错误输入同一汉语固定搭配中的音节,从而导致用户在输入该汉语固定搭配的字符串时,总是需要修改所输字符串或重新输入字符串。故此,可以将用户输入的第一字符串中的多个音节,作为第一字符串,即第一字符串可以对应多个候选字。例如,由于用户想输入“中国”,习惯性地将“zhongguo”错误输入为“zhonguo”,当用户发现输入的字符串“zhonguo”中少输入了一个“g”,因此,用户需要修改字符串“zhonguo”,假设用户通过移动输入焦点,将焦点从字符串的末尾移动到“g”和“u”之间,且没有选择“uo”对应的候选字,此时,可以认为这次输入行为为第一输入行为;由于用户只是在输入“zhongguo”时,总是将音节“guo”中的“g”遗漏输入,而在其他情况时,不会将音节“guo”中的“g”遗漏输入,因此,在这种情况下,可以将第一字符串“zhonguo”中的多个音节“zhonguo”作为第一字符串。
由于用户的输入习惯或输入速度过快,导致第一输入行为输入的第一字符串并不是用户实际想要输入的字符串,也就是说,该第一字符串是用户输入字符串时错误输入的,从而用户在第一字符串对应的候选字中找不到用户所需要的候选字。
为此,用户可以通过第二输入行为将第一输入行为错误输入的第一字符串修改为用户实际想输入的字符串,即第二字符串,以希望可以在第二字符串对应的候选字中找到自己所需要的候选字。也就是说,第二输入行为可以是在用户在第一输入行为结束后,将该第一输入行为所输入的第一字符串修改为第二字符串,并选择该第二字符串对应的候选字的行为,并且该第二输入行为是与该第一输入行为相邻产生的输入行为。为了便于描述,可以将第二输入行为结束前字符串展示界面中展示的字符串作为第二字符串。
本申请实施例中,由于用户是通过第二输入行为将错误输入的第一字符串修改为第二字符串的,那么,第一输入行为输入的第一字符串与第二输入行为输入的第二字符串之间,除了第一字符串与第二字符串是不相同的字符串以外,若还包括其他字符串,则这些字符串应该可以是相同的。为了能够有效确定出在第二输入行为中所输入字符串中哪部分属于对应第一字符串的第二字符串,或者说是用于纠正第一字符串输入错误的第二字符串,第一字符串在第一输入行为输入的字符串中所处的音节位置与第二字符串在第二输入行为输入字符串中所处的音节位置可以是相同的。
例如,用户想要输入多个汉字即“我是好人”,由于用户发音问题,总是习惯性地将字符串“shi”错误输入为“si”,因此,用户将字符串“woshihaoren”错误输入为字符串“wosihaoren”。用户由于错误地输入了字符串“si”,从而在字符串“si”对应的候选字中,找不到所需要的候选字“是”;因此,用户需要修改第一字符串中的“si”,假设用户通过移动输入焦点,将输入焦点从第一字符串的末尾移动到“s”和“i”之间,且没有选择“si”所对应的候选字,输入法可以识别输入发生中断,用户结束了一次输入行为,由于结束的这次输入行为中,用户没有选择“si”对应的候选字,故可以认为这次输入行为为第一输入行为,这时字符串展示界面中展示的字符串“wosihaoren”可以作为第一输入行为中输入的字符串。
在紧接着的输入行为中,由于输入焦点处于“s”和“i”之间,用户通过输入字符“h”,将字符串修改为“woshihaoren”,并从对应的候选项中选择了“我是好人”输入到电子设备中,此时系统可以识别输入行为发生中断,用户结束了一次输入行为,由于结束的这次输入行为中,用户选择了字符串对应的候选项,相当于选择了“shi”对应的候选字,故可以认为这次输入行为为第二输入行为,结束前字符串展示界面中展示的字符串“woshihaoren”可以作为第二输入行为中输入的字符串。
通过第二输入行为,将第一输入行为中错误输入的字符串“si”修改为用户实际想要输入的字符串“shi”,而且,被修改的字符串“si”在第一字符串“wosihaoren”中所处的音节位置是第二个音节,与修改后的字符串“shi”在第二字符串“woshihaoren”中所处的音节位置是相同的,故可以确定第一输入行为输入的字符串“wosihaoren”中字符串“si”为第一字符串,第二输入行为输入的字符串“woshihaoren”中字符串“shi”为第二字符串。
可见,在用户通过第二输入行为将第一输入行为错误输入的第一字符串修改为用户实际想要输入的第二字符串之后,便可以确定第一字符串为用户在第一输入行为中错误输入的字符串,第二字符串为用户通过第二输入行为将第一字符串修改为用户实际想输入的字符串,从而确定了第一输入行为中输入的第一字符串与第二输入行为中输入的第二字符串的对应关系,进一步地,可以保存该第一字符串与第二字符串的对应关系。
S103:根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。
由于已经保存了第一字符串与第二字符串的对应关系,并且该对应关系是针对用户的第一输入行为与第二输入行为所进行记录保存的。故在保存该对应关系后,为了在用户使用输入法输入字符串时,可以较为准确的体现出该用户的个人输入习惯,可以根据该第一字符串与第二字符串的对应关系建立针对用户的纠错词库,并将第一字符串与第二字符串,以及第一字符串与第二字符串的对应关系保存到该纠错词库中。以使得当用户错误输入一字符串,并检测到用户输入的该字符串与针对该用户建立的纠错词库中第一字符串一致时,可以将该用户输入的该字符串在纠错词库中对应的第二字符串作为该用户实际想要输入的字符串,从而可以起到适应该用户个人输入习惯的纠错,提高了该用户的输入体验。
例如,继续S102中“我是好人”的例子,在用户通过第二输入行为将第一输入行为输入的第一字符串“si”修改为第二字符串“shi”后,可以确定第一字符串“si”为用户错误输入的字符串,第二字符串“shi”为用户实际想输入的字符串,因此,可以确定第一字符串“si”与第二字符串“shi”之间的存在对应关系,进一步地,将该对应关系作为针对用户的输入记录进行保存,并根据该对应关系建立针对该用户的纠错词库,并将该第一字符串“si”与第二字符串“shi”,还有第一字符串“si”与第二字符串“shi”的对应关系保存到该纠错词库中。
可见,本申请实施例中,可以通过识别用户使用输入法输入字符串的输入行为,当发现该用户在第一输入行为中输入了字符串,例如第一字符串,但是没有选择所展示的候选项,却在紧接着的第二输入行为中,从所输入字符串例如第二字符串对应的候选项中选择了候选项上屏,则可以从该用户相邻两次输入行为确定出用户输错了字符串,将实际想输入的第二字符串错输入第一字符串,故可以保存第一字符串与第二字符串的对应关系,并根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。由于该纠错词库是根据该用户自身的输入行为建立的,可以较为准确的体现出该用户的个人输入习惯,故通过该纠错词库可以有效的对该用户输入行为中输错的字符串进行纠错,提高用户的输入效率。
需要强调的,为了更加精准地确定用户第一输入行为中的第一字符串与第二输入行为中的第二字符串的对应关系,本申请实施例中,将第一输入行为中的第一字符串修改为第二输入行为中的第二字符串可以有多种实现方式,具体的:在一种实现方式中,在输入字符串的过程中可以出现将输入的字符串全部取消输入,即将第一输入行为中的第一字符串全部取消输入,在紧接着的输入行为中重新输入字符串,并从重新输入的字符串对应的候选项中选择用户所需要的候选项,即通过第二输入行为重新输入第二字符串;其中,该第一字符串中包括用户错误输入的第一字符串,该第二字符串中包括用户实际想要输入的第二字符串。
在另一种实现方式中,在输入字符串的过程中可以出现用户通过移动输入焦点,将输入焦点移动到一音节位置中,可以仅将所输入的字符串中的一部分字符串进行删除,保留所输入的字符串中除了该部分字符串以外的其他字符串,也可以仅进行移动输入焦点,不做其他操作,此时都可以认为第一输入行为结束。在紧接着的输入行为中,确定输入焦点处于第一字符串中的音节位置,并在输入焦点所处的该音节位置重新输入字符串,并从该重新输入的字符串对应的候选字中选择用户所需要的候选字,即通过第二输入行为将第一字符串修改为第二字符串。
故此,在本申请实施例中,第二输入行为中所输入的第二字符串可以是在第一输入行为中所输入第一字符串的基础上修改得到的,或者该第二字符串也可以是在取消了第一输入行为所输入字符串后输入的。
为了方便理解,现结合具体场景进行举例说明,本申请实施例中如何将第一输入行为中的第一字符串修改为第二输入行为中的第二字符串:
在一种实现方式中,用户由于发音不准确,当用户想要输入多个两个汉字即“食堂”时,在使用输入法输入字符串的过程中,通常都会错误地将“食堂”对应的字符串“shitang”输入为字符串“sitang”,由于用户将字符串“shitang”中的“shi”错误输入为“si”,导致用户输入的字符串“sitang”对应的候选项中没有出现用户想要的候选项“食堂”,因此,在这种情况下,用户无法输入候选项“食堂”。
为了解决上述问题,在一种实现方式中,在输入字符串的过程中出现了用户将输入的字符串“sitang”全部取消输入,即将第一输入行为中的第一字符串“sitang”全部取消输入,在紧接着的输入行为中重新输入字符串“shitang”,并从重新输入的字符串“shitang”对应的候选项中选择所需要的候选项“食堂”,即通过第二输入行为重新输入第二字符串“shitang”。
在另一种实现方式中,在输入字符串的过程中出现了用户通过移动输入焦点,将输入焦点从字符串“sitang”的末尾移动到“s”和“i”之间,即移动到字符串“sitang”中的第一个音节位置中,此时,可以认为第一输入行为结束;在紧接着的输入行为中,确定输入焦点处于字符串“sitang”中的第一个音节位置中之后,在输入焦点所处的第一个音节位置中输入字符“h”,将字符串修改为“shitang”,并从字符串“shitang”对应的候选项中选择所需要的候选项“食堂”,即可以认为第二输入行为中所输入的第二字符串“shi”是在第一输入行为中所输入第一字符串“si”的基础上修改得到的。
可见,本申请实施例中可以通过识别多种将第一输入行为中的第一字符串修改为第二输入行为中的第二字符串的方式,从而能够更加精准地确定出第一字符串和第二字符串,以及第一输入行为中的第一字符串与第二输入行为中的第二字符串的对应关系。
如果用户只是偶尔出现输错字符串的情况,就将该情况中错误输入的第一字符串与用户重新输入的第二字符串的关系存入用户的纠错词库中,当用户再次输入该第一字符串,并且用户实际想要输入的字符串为该第一字符串时,由于展示的候选字为第二字符串对应的候选字,因此,用户在展示的候选字中找不到所需要的候选字,导致了用户无法输入所需要的候选字。
故此,为了避免上述情况的发生,在本申请实施例中,S102中“保存第一字符串与第二字符串的对应关系”的步骤可以包括:记录识别出用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的次数,若该次数满足阈值,则保存该第一字符串与该第二字符串的对应关系,其中,该阈值可以是用户预先设置的,也可以是系统自动设置的,在此不进行任何限定。
可见,在本申请实施例中,通过对第一字符串与第二字符串的对应关系的保存条件进行限定,以希望纠错词库中不会涵盖这种偶尔出现输错字符串的情况,以避免在使用纠错词库时对用户带来干扰。
由于本申请实施例中的纠错词库是针对不同用户的习惯性输错字符串情况而建立的,为了能够通过该纠错词库更好地针对用户由于自身输入习惯导致的字符串输入错误进行纠错,本申请实施例中,还可以包括步骤A:在获取了用户输入的第一字符串后,根据该第一字符串从针对该用户所建立的纠错词库中查询得到第二字符串,并将该第二字符串对应的候选字作为该用户输入的该第一字符串对应的候选字。
具体地,经过S101-S103建立了针对用户个人输错情况的纠错词库后,如果该用户在输入字符串的过程中,再次错误输入了一字符串,在检测到该字符串与针对该用户建立的纠错词库中第一字符串一致时,从而将在该纠错词库中,与该第一字符串在纠错词库中有对应关系的第二字符串作为该用户实际想要输入的字符串,从而对该用户本次输入行为中输入错误的字符串进行纠错,进一步地,将该第二字符串对应的候选字作为第一字符串对应的候选字,并将其进行展示,从而用户可以在展示的候选字中找到所需要的候选字。
例如,继续S103中“我是好人”的例子,在根据用户第一输入行为输入的第一字符串“wosihaoren”中的第一字符串“si”与第二输入行为输入的第二字符串“woshihaoren”中的第二字符串“shi”的对应关系建立了针对该用户的纠错词库,并将该第一字符串“si”与第二字符串“shi”,还有第一字符串“si”与第二字符串“shi”的对应关系保存到该纠错词库中。当该用户在下次想要输入多个汉字即“事项”时,输入字符串“sixiang”,由于检测到用户输入的字符串中有字符串“si”,并且与该用户的纠错词库中的第一字符串“si”一致,从而将在该纠错词库中,与第一字符串“si”有对应关系的第二字符串“shi”作为该用户实际想要输入的字符串,即确定该用户实际想要输入的字符串为“shixiang”,从而对该用户输入行为中输入错误的字符串“si”进行了纠错。进一步地,将该第二字符串“shi”对应的候选字“事”作为第一字符串“si”对应的候选字,并将其进行展示,从而用户可以在第一字符串“si”对应的展示候选字中找到所需要的候选字“事”。
可见,在本申请实施例中,通过将第二字符串对应的候选字作为该用户输入的第一字符串对应的候选字,起到了即使用户在第一输入行为中错误输入第一字符串,也可以在展示的候选字中找到所需要的候选字的效果。
由于在传统输入法中,对于用户输入的字符串所展示的候选字的展示位置是根据候选字对应的发音顺序来进行设置的,比如,用户想要输入一个汉字即“事”,用户通过输入法输入一字符串“shi”,而由于字符串“shi”对应的候选字的展示位置是根据发音顺序来进行设置的,其中,该发音顺序为由第一声到第四声的顺序。因此,字符串“shi”对应的第一页候选字展示页面中所展示的展示结果为:1.师 2.实 3.十 4.石 5.识,显然,传统输入法所展示的第一页候选字展示页面中的候选字并不是用户想要的,需要用户多次往后翻页才能找到自己想要输入的候选字“事”。并且,当用户将字符串“shi”错误输入为字符串“si”时,传统输入法只能展示字符串“si”对应的候选字,这样,用户更不可能在输错字符串的情况下还能够快速找到自己想要输入的候选字“事”,从而导致用户输错的字符串“si”对应的候选字的展示位置不够个性化和针对性,不能满足用户的需求。
为此,可选的,在本申请实施例中,还可以在第一字符串对应的候选字展示界面中的部分候选字展示位置展示第二字符串对应的候选字,候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置。
在纠错词库中,一第二字符串可能同时对应着多个候选字,而这些候选字在以往展示的过程中,都曾被用户选择输入到电子设备中,即这些候选字均为被用户选择上屏的候选字。当需要将第二字符串对应的候选字作为用户输入的第一字符串对应的候选字进行展示时,可以根据第二字符串对应的候选字被选择上屏的热度,调整第一字符串对应的候选字的展示位置。其中,第二字符串对应的候选字被选择上屏的热度可以是根据用户个人的输入行为数据统计得到的,而该输入行为数据是在用户个人未选择第一输入行为中第一字符串对应的候选字,而选择第二输入行为中第二字符串对应的候选字的情况下收集得到的,即该输入行为数据为用户个人在输错场景下的输入行为数据。
具体地,根据第二字符串对应的候选字被选择上屏的热度,调整第一字符串对应的候选字的展示位置的方式可以为:根据第二字符串对应的候选字被选择上屏的热度,从第二字符串对应的候选字中选择热度较高的部分候选字,并将该部分候选字的热度与第一字符串对应的候选字的热度进行比较,接着根据各个候选字的热度高低来对候选字展示位置进行排序,比如,从第二字符串对应的候选字中选出热度最高的候选字,并将该候选字与第一字符串对应的候选字的热度进行比较,接着,在第一字符串对应的候选字展示界面中的一候选字展示位置展示该第二字符串对应的候选字中热度最高的候选字。一般情况下,可以将热度较高的候选字的展示位置放在热度较低的候选字之前,这里不再赘述。
为了方便理解,现举例说明本申请实施例中,如何在第一字符串对应的候选字展示界面中的部分候选字展示位置展示第二字符串对应的候选字:
继续步骤A中“事项”的例子,用户想要输入两个汉字“事项”时,由于该用户将“事项”对应的字符串“shixiang”错误地输入为字符串“sixiang”,由于检测到用户输入的字符串中有字符串“si”,并且与该用户的纠错词库中的第一字符串“si”一致,因此,将该第二字符串“shi”对应的候选字作为第一字符串“si”对应的候选字,并将其进行展示。假设需要从第二字符串“shi”对应的候选字中选出热度最高的候选字,并将其展示在一字符串“si”对应的候选字展示界面中,由于根据该用户个人在输错场景下的输入行为数据统计得到第二字符串“shi”对应的候选字中被选择上屏的热度最高的候选字为“是”,接着,将候选字“是”的热度与第一字符串“si”对应的候选字的热度比较得到候选字“是”的热度在所有候选字中最高,因此,可以将候选字“是”的展示位置在第一字符串对应的候选字的展示位置中向前调整,具体如何向前调整本申请并不限定,例如,可以调整到第一页候选字展示页面的某个展示位置中,可选的,最终的调整结果可以为,在第一字符串“si”对应的第一页候选字展示页面中,将候选字“是”的展示位置放在第一页候选字展示页面中的第一位,即展示结果为:1.是 2.思 3.斯 4.丝 5.司。
可见,在本申请实施例中,可以在第一字符串对应的候选字展示界面中的部分候选字展示位置展示第二字符串对应的候选字,也就是说,可以根据第二字符串对应的候选字被选择上屏的热度,来调整第一字符串对应的候选字的展示位置,以希望能够根据用户个人输入习惯将被选择上屏的热度最高的候选字展示在第一字符串对应的候选字的优先展示位置中,以便用户可以优先看到选择上屏热度最高的候选字,符合用户的个人输入习惯,从而用户可以快速找到自己想要的候选字。
参见图2,为本申请实施例提供的一种纠错词库的建立装置的组成示意图,该装置包括识别单元201、保存单元202和建立单元203:
所述识别单元201,用于识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
所述保存单元202,用于若所述识别单元201识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
所述建立单元203,用于根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。
在本申请的一种实施方式中,所述保存单元202包括:
记录子单元,用于记录识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的次数;
保存子单元,用于若所述记录子单元所记录的所述次数满足阈值,保存所述第一字符串与第二字符串的对应关系。
在本申请的一种实施方式中,所述第二字符串为在所述第一输入行为中所输入第一字符串的基础上修改得到的;或者
所述第二字符串为在取消了所述第一输入行为所输入字符串后输入的。
在本申请的一种实施方式中,所述装置还包括替换单元和查询单元:
所述查询单元,用于若获取了所述用户输入的所述第一字符串,根据所述第一字符串从所述纠错词库查询得到所述第二字符串;
所述替换单元,用于将所述第二字符串对应的候选字作为所述用户输入的所述第一字符串对应的候选字。
在本申请的一种实施方式中,所述装置还包括展示单元:
所述展示单元,用于在所述第一字符串对应的候选字展示界面中的部分候选字展示位置展示所述第二字符串对应的候选字,所述候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置。
本申请实施例所提供的纠错词库的建立装置,可以通过识别用户使用输入法输入字符串的输入行为,当发现该用户在第一输入行为中输入了字符串,例如第一字符串,但是没有选择所展示的候选项,却在紧接着的第二输入行为中,从所输入字符串例如第二字符串对应的候选项中选择了候选项上屏,则可以从该用户相邻两次输入行为确定出用户输错了字符串,将实际想输入的第二字符串错输入第一字符串,故可以保存第一字符串与第二字符串的对应关系,并根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。由于该纠错词库是根据该用户自身的输入行为建立的,可以较为准确的体现出该用户的个人输入习惯,故通过该纠错词库可以有效的对该用户输入行为中输错的字符串进行纠错,提高用户的输入效率。
本申请还提供了一种纠错词库的建立装置,所述装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
若识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。
在本申请的一种实施方式中,所述保存第一字符串与第二字符串的对应关系,包括:
记录识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的次数;
若所述次数满足阈值,保存所述第一字符串与第二字符串的对应关系。
在本申请的一种实施方式中,所述第二字符串为在所述第一输入行为中所输入第一字符串的基础上修改得到的;或者
所述第二字符串为在取消了所述第一输入行为所输入字符串后输入的。
在本申请的一种实施方式中,所述方法还包括:
若获取了所述用户输入的所述第一字符串,根据所述第一字符串从所述纠错词库查询得到所述第二字符串;
将所述第二字符串对应的候选字作为所述用户输入的所述第一字符串对应的候选字。
在本申请的一种实施方式中,在对所述第一字符串对应的候选字进行展示时,所述方法还包括:
在所述第一字符串对应的候选字展示界面中的部分候选字展示位置展示所述第二字符串对应的候选字,所述候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置。
图3是根据一示例性实施例示出的一种纠错词库的建立装置300作为终端时的框图。例如,装置300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口312,传感器组件314,以及通信组件316。
处理组件302通常控制装置300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理组件302可以包括多媒体模块,以方便多媒体组件308 和处理组件302之间的交互。
存储器304被配置为存储各种类型的数据以支持在设备300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器 (SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件306为装置300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为装置300生成、管理和分配电力相关联的组件。
多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当设备300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当装置300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。
I/O接口312为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件314包括一个或多个传感器,用于为装置300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为装置300的显示器和小键盘,传感器组件 314还可以检测装置300或装置300一个组件的位置改变,用户与装置300接触的存在或不存在,装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物品的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在 NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置300可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器304,上述指令可由装置300的处理器320执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本申请的一些实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器 (central processingunits,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种纠错词库的建立方法,所述方法包括:
识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
若识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
以上对本申请所提供的一种文字发音装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种纠错词库的建立方法,其特征在于,所述方法包括:
识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
若识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库;所述纠错词库与使用输入法的用户一一对应;
若获取了所述用户输入的所述第一字符串,根据所述第一字符串从所述纠错词库查询得到所述第二字符串;
将所述第二字符串对应的候选字作为所述用户输入的所述第一字符串对应的候选字;
根据所述第二字符串对应的候选字被选择上屏的热度,从所述第二字符串对应的候选字中选择高热度的部分候选字,并将所述部分候选字的热度与所述第一字符串对应的候选字的热度进行比较,根据各个候选字的热度高低来调整所述第一字符串对应的候选字的展示位置,在所述第一字符串对应的候选字展示界面中的部分候选字展示位置展示所述第二字符串对应的候选字中热度最高的候选字,所述候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置;所述第二字符串对应的候选字被选择上屏的热度,是根据用户个人在输错场景下的输入行为数据统计得到的,所述输错场景是指是所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的情况。
2.根据权利要求1所述的方法,其特征在于,所述保存所述第一字符串与第二字符串的对应关系,包括:
记录识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的次数;
若所述次数满足阈值,保存所述第一字符串与第二字符串的对应关系。
3.根据权利要求1所述的方法,其特征在于,所述第二字符串为在所述第一输入行为中所输入第一字符串的基础上修改得到的;或者
所述第二字符串为在取消了所述第一输入行为所输入字符串后输入的。
4.一种纠错词库的建立装置,其特征在于,所述装置包括识别单元、保存单元、建立单元替换单元、查询单元和展示单元:
所述识别单元,用于识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
所述保存单元,用于若所述识别单元识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
所述建立单元,用于根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库;所述纠错词库与使用输入法的用户一一对应;
所述查询单元,用于若获取了所述用户输入的所述第一字符串,根据所述第一字符串从所述纠错词库查询得到所述第二字符串;
所述替换单元,用于将所述第二字符串对应的候选字作为所述用户输入的所述第一字符串对应的候选字;
所述展示单元,用于根据所述第二字符串对应的候选字被选择上屏的热度,从所述第二字符串对应的候选字中选择高热度的部分候选字,并将所述部分候选字的热度与所述第一字符串对应的候选字的热度进行比较,根据各个候选字的热度高低来调整所述第一字符串对应的候选字的展示位置,在所述第一字符串对应的候选字展示界面中的部分候选字展示位置展示所述第二字符串对应的候选字中热度最高的候选字,所述候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置;所述第二字符串对应的候选字被选择上屏的热度,是根据用户个人在输错场景下的输入行为数据统计得到的,所述输错场景是指是所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的情况。
5.根据权利要求4所述的装置,其特征在于,所述保存单元包括:
记录子单元,用于记录识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的次数;
保存子单元,用于若所述记录子单元所记录的所述次数满足阈值,保存所述第一字符串与第二字符串的对应关系。
6.根据权利要求4所述的装置,其特征在于,所述第二字符串为在所述第一输入行为中所输入第一字符串的基础上修改得到的;或者
所述第二字符串为在取消了所述第一输入行为所输入字符串后输入的。
7.一种纠错词库的建立装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
识别用户输入字符串的输入行为,所输入的字符串对应至少一个候选字;
若识别出所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字,保存所述第一字符串与第二字符串的对应关系,所述第二输入行为是后于所述第一输入行为产生的、且与所述第一输入行为相邻产生的输入行为,所述第一字符串在所述第一输入行为输入字符串中所处的音节位置与所述第二字符串在所述第二输入行为输入字符串中所处的音节位置相同;
根据所述第一字符串与第二字符串的对应关系建立针对所述用户的纠错词库;所述纠错词库与使用输入法的用户一一对应;
若获取了所述用户输入的所述第一字符串,根据所述第一字符串从所述纠错词库查询得到所述第二字符串;
将所述第二字符串对应的候选字作为所述用户输入的所述第一字符串对应的候选字;
根据所述第二字符串对应的候选字被选择上屏的热度,从所述第二字符串对应的候选字中选择高热度的部分候选字,并将所述部分候选字的热度与所述第一字符串对应的候选字的热度进行比较,根据各个候选字的热度高低来调整所述第一字符串对应的候选字的展示位置,在所述第一字符串对应的候选字展示界面中的部分候选字展示位置展示所述第二字符串对应的候选字中热度最高的候选字,所述候选字展示界面为用于展示候选字的界面,包括了多个候选字展示位置;所述第二字符串对应的候选字被选择上屏的热度,是根据用户个人在输错场景下的输入行为数据统计得到的,所述输错场景是指是所述用户未选择第一输入行为中第一字符串对应的候选字,而选择了第二输入行为中第二字符串对应的候选字的情况。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至3中任一项所述的纠错词库的建立方法。
CN201710570569.5A 2017-07-13 2017-07-13 一种纠错词库的建立方法和装置 Active CN109271037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710570569.5A CN109271037B (zh) 2017-07-13 2017-07-13 一种纠错词库的建立方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710570569.5A CN109271037B (zh) 2017-07-13 2017-07-13 一种纠错词库的建立方法和装置

Publications (2)

Publication Number Publication Date
CN109271037A CN109271037A (zh) 2019-01-25
CN109271037B true CN109271037B (zh) 2022-09-09

Family

ID=65152269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710570569.5A Active CN109271037B (zh) 2017-07-13 2017-07-13 一种纠错词库的建立方法和装置

Country Status (1)

Country Link
CN (1) CN109271037B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090341A (zh) * 2019-12-24 2020-05-01 科大讯飞股份有限公司 输入法候选结果展示方法、相关设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5299700A (en) * 1999-05-27 2000-12-18 America Online, Inc. Keyboard system with automatic correction
CN100517463C (zh) * 2004-11-01 2009-07-22 英业达股份有限公司 语音合成系统以及方法
US20070016862A1 (en) * 2005-07-15 2007-01-18 Microth, Inc. Input guessing systems, methods, and computer program products
CN101694608B (zh) * 2008-12-04 2012-07-04 北京搜狗科技发展有限公司 一种输入法及输入法系统
CN105027040B (zh) * 2013-01-21 2018-09-21 要点科技印度私人有限公司 文本输入系统及方法
CN104375665B (zh) * 2014-12-09 2017-10-27 三星电子(中国)研发中心 输入法纠错方法及装置
CN106774970B (zh) * 2015-11-24 2021-08-20 北京搜狗科技发展有限公司 对输入法的候选项进行排序的方法和装置
CN106886294B (zh) * 2015-12-15 2020-10-27 北京搜狗科技发展有限公司 一种输入法纠错方法和装置
CN106468960A (zh) * 2016-09-07 2017-03-01 北京新美互通科技有限公司 一种输入法候选项排序的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN101727271A (zh) * 2008-10-22 2010-06-09 北京搜狗科技发展有限公司 一种提供纠错提示的方法、装置及输入法系统

Also Published As

Publication number Publication date
CN109271037A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
US10296201B2 (en) Method and apparatus for text selection
TW201725580A (zh) 語音輸入方法、裝置和終端設備
CN107918496B (zh) 一种输入纠错方法和装置、一种用于输入纠错的装置
CN107688399B (zh) 一种输入方法和装置、一种用于输入的装置
CN109002183B (zh) 一种信息输入的方法及装置
CN107291260B (zh) 一种信息输入方法和装置、及用于信息输入的装置
CN107688397B (zh) 一种输入方法、系统和用于输入的装置
WO2018018912A1 (zh) 一种搜索方法、装置及电子设备
CN108628461B (zh) 一种输入方法和装置、一种更新词库的方法和装置
CN109271037B (zh) 一种纠错词库的建立方法和装置
CN110795014B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110780749B (zh) 一种字符串纠错方法和装置
CN109308126B (zh) 一种候选词展示方法和装置
CN109725736B (zh) 一种候选排序方法、装置及电子设备
CN108983992B (zh) 一种具有标点符号的候选项展示方法和装置
CN110297678B (zh) 一种输入法界面的处理方法和装置
CN109917927B (zh) 一种候选项确定方法和装置
CN109426354B (zh) 一种输入方法、装置和用于输入的装置
CN109144286B (zh) 一种输入方法及装置
CN110716653B (zh) 一种联想源确定方法和装置
CN107977089B (zh) 一种输入方法和装置、一种用于输入的装置
KR20210050484A (ko) 정보 처리 방법, 장치 및 저장 매체
CN112528129B (zh) 多语种翻译系统语种搜索方法及装置
CN112083811B (zh) 一种候选项展示方法和装置
CN112905079B (zh) 一种数据处理方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant