CN109471538B - 一种输入方法、装置和用于输入的装置 - Google Patents
一种输入方法、装置和用于输入的装置 Download PDFInfo
- Publication number
- CN109471538B CN109471538B CN201710807323.5A CN201710807323A CN109471538B CN 109471538 B CN109471538 B CN 109471538B CN 201710807323 A CN201710807323 A CN 201710807323A CN 109471538 B CN109471538 B CN 109471538B
- Authority
- CN
- China
- Prior art keywords
- preselected
- participle
- segmentation
- sequence
- multivariate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明实施例提供了一种输入方法、装置和用于输入的装置,其中的方法具体包括:对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。本发明实施例可以自动对输入光标处的上下文进行纠错,以节省用户人工检查以及手动删除错误并重新输入的过程,提高用户的输入效率。
Description
技术领域
本发明涉及输入法技术领域,尤其涉及一种输入方法、装置和用于输入的装置。
背景技术
对于例如中文、日文、韩文等语言的用户而言,一般都需要通过输入法程序与计算机进行交互。例如,用户可以通过键盘键入输入串,然后由输入法程序依据其预置的标准映射规则将该输入串转换为相应语言的候选项并展示,进而将用户选择的候选项上屏。
现有的输入法程序可以根据用户已输入的上文,联想得到用户欲输入的下文。例如,若用户已输入的上文为“一起去泰国”,且当前输入光标位于“国”字之后时,输入法程序联想得到的下文可以为“旅游”,可以在用户还未输入的情况下,根据联想,向用户展现候选项“公司”,因此可以提高用户的输入效率。
然而,在实际应用中,在已输入的上文中存在错误时,用户将输入光标移到错误的上文处,输入法仍然按照固有的程序,根据错误的上文进行联想,例如,在用户误将“一起去泰国”输入为“一起去太过”的情况下,输入法程序针对“太过”得到的联想结果明显不符合用户的输入意图的,不仅导致联想结果偏离用户的输入意图,而且还需用户手动删除错误的上文重新输入,导致用户的输入效率较低。
发明内容
本发明实施例提供一种输入方法、装置和用于输入的装置,以解决现有技术中已输入的上文中存在错误时导致输入效率较低的问题。
为了解决上述问题,本发明公开了一种输入方法,包括:
对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。
另一方面,本发明公开了一种输入装置,包括:
分词模块,用于对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
处理模块,用于根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。
可选地,所述处理模块,包括:
纠错子模块,用于对所述输入光标处的上下文进行纠错;所述纠错子模块,包括:
预选分词确定单元,用于确定预选分词,所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;
错误类别确定单元,用于根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
纠错单元,用于根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
可选地,所述错误类别确定单元,包括:
第一确定子单元,用于若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
可选地,所述错误类别确定单元,包括:
第二确定子单元,用于若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输,从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
可选地,所述第二确定子单元,包括:
获取子单元,用于根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
确定子单元,用于根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
可选地,所述错误类别确定单元,包括:
第三确定子单元,用于若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输,对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
可选地,所述处理模块,包括:
联想子模块,用于对所述输入光标处的上下文进行联想;所述联想子模块,包括:
联想单元,用于对所述上文分词序列进行联想,以得到第一联想候选项;
过滤单元,用于根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
可选地,所述过滤单元,包括:
查询过滤子单元,用于根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
再一方面,本发明公开了一种用于输入的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。
可选地,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行纠错;所述对所述输入光标处的上下文进行纠错,包括:
确定预选分词,所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;
根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
可选地,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
可选地,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输,从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
可选地,所述获取用于替换所述预选分词的联想候选项,包括:
根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
可选地,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输,对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
可选地,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行联想;所述对所述输入光标处的上下文进行联想,包括:
对所述上文分词序列进行联想,以得到第一联想候选项;
根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
可选地,所述对所述第一联想候选项进行过滤,以得到第二联想候选项,包括:
根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
又一方面,本发明公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的输入方法。
本发明实施例包括以下优点:
本发明实施例的输入方法,在用户的输入过程中,本发明实施例对输入光标处的上下文进行分词,得到分词序列,由于在正确的文本中,各分词之间通常具有二元、三元或者更多元的连接关系,因此,本发明实施例根据所述分词序列中连续分词之间的多元关系,可以判断所述分词序列中是否存在输入不合理的、错误的分词,进而可以对错误的分词进行处理,例如,可以对错误的分词进行纠错,以得到对应的纠错结果。由此,通过本发明实施例,可以自动对输入光标处的上下文进行纠错,以节省用户人工检查以及手动删除错误并重新输入的过程,提高用户的输入效率。或者,还可以根据分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行联想,使得联想结果更加合理、准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种输入方法实施例一的步骤流程图;
图2是本发明的一种输入方法实施例二的步骤流程图;
图3是本发明的一种输入装置实施例一的结构框图;
图4是本发明的一种用于输入的装置800的框图;及
图5是本发明的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例一
参照图1,示出了本发明的一种输入方法实施例一的步骤流程图,具体可以包括:
步骤101、对输入光标处的上下文进行分词,以得到分词序列;所述分词序列可以包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
本发明实施例可应用于键盘符号输入、手写输入、语音输入等输入方式的输入法程序,为便于描述,本发明实施例将用户在上述输入方式下输入的编码字符串称为输入串。本发明实施例适用于中文、英文、日文等各种语言的输入,为方便起见,以下均以中文为例进行描述。在输入中文时,通常需要键入字母、数字、符号等字符,输入法程序将所获取的用户输入字符转换为中文。
在本发明实施例中,输入法程序可以通过系统API(Application ProgrammingInterface,应用程序编程接口)获取输入光标处的上下文对应的文本信息,可以以输入光标所在的整句分割点或文本框边界作为所述文本信息的长度边界。其中,所述整句分割点具体可以为标点符号、空格、换行符等表示一个句子开始或结束的符号,所述文本信息可以包括位于输入光标之前的上文文本信息,或位于输入光标之后的下文文本信息,当然,如果输入光标的前后都存在文本信息,也可以同时获取上文文本信息和下文文本信息。
可以理解,本发明实施例的输入方法可由输入法程序之外的应用程序执行,本发明实施例对于输入方法的具体执行主体不加以限制,本发明实施例主要以输入法程序为例对输入方法进行说明,其他应用程序相互参照即可。
在用户输入过程中,输入法程序检测到用户触发输入光标的移动事件时,可以获取位于输入光标之前的上文文本信息,和/或位于输入光标之后的下文文本信息,分别对上文文本信息和下文文本信息进行分词,得到分词序列。可选地,所述分词序列中每一个分词具体可以为一个元词,所述元词可用于表示具有概念的独立性与概念的单元性的词汇。概念的独立性是指词汇所表现的概念具有独立而完整的含义;概念的单元性是指词汇所表现的概念是一个最基本的概念单元,即无论在含义上还是在字面上都不能再拆分。例如,“数学”是一个元词,它表现了一个独立的概念,又是一个单元概念,不能再拆分为“数”与“学”;“数学模型”则不是一个元词,它虽然表现了一个独立的概念,但可以进一步拆分为“数学”与“模型”两个元词。
可以理解,上述将文本信息按照元词进行分词划分,仅作为本发明的一种应用示例,本发明实施例对于划分分词的具体方式不加以限制,例如,可以将常用的专有名词作为一个独立的分词,如“美利坚合众国”为一个常用的专有名词,其整体具有特殊意义,因此,虽然“美利坚合众国”不是一个元词,但是也可以认为为是一个独立的分词。本发明实施例中均以元词为例进行说明。
在本发明的一种应用示例中,对于已上屏的文本信息“一起去去泰国旅游”,当用户将输入光标移动到第二个“去”字之后时,输入法程序可以获取输入光标处的上文为“一起去去”,以及下文为“泰国旅游”;对上文“一起去去”进行分词可以得到上文分词序列“一起/去/去”,对下文“泰国旅游”进行分词,可以得到下文分词序列“泰国/旅游”,其中,符号“/”用于间隔两个分词。
步骤102、根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。
在本发明实施例中,所述多元关系具体可以包括二元、三元及三元以上的多元关系,在实际应用中,可以根据大量语料中两个或者多个词汇之间的连接关系,统计得到用于存储上述多元关系的多元关系库,如系统n元库,其中,n为大于等于2的正整数,如系统二元库、系统三元库等,具体地,系统二元库可用于存储词汇之间的二元关系,系统三元库可用于存储词汇之间的三元关系,系统四元库可用于存储词汇之间的四元关系等。通过查询系统n元库,即可得知词汇之间是否具有多元关系,例如,在系统二元库中,存储有二元关系“漫天/大雪”,说明词汇“漫天”和词汇“大雪”之间具有二元关系。再如,查询系统三元库中不存在三元关系“一起/去/去”,说明分词“一起”、“去”、“去”之间不存在三元关系。
在实际应用中,在对正确的文本信息进行分词,得到分词序列之后,该分词序列中连续的分词之间通常存在多元关系。例如,对文本信息“我们一起去吃饭”进行分词,可以得到分词序列“我们/一起/去/吃饭”,其中,“我们”和“一起”之间具有二元关系,“一起”和“去”之间具有二元关系,“去”和“吃饭”之间具有二元关系,“我们”和“一起”和“去”之间具有三元关系,“一起”和“去”和“吃饭”之间具有三元关系等等。而对于存在错误的文本信息“我们/一起/去/饭”进行分词,可以得到分词序列“我们/一起/去/饭”,其中,分词序列中连续的分词“去”和“饭”之间不具有二元关系。因此,本发明实施例可以根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的文本信息进行纠错,以得到对应的纠错结果。
在本发明的一种可选实施例中,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行纠错;所述对所述输入光标处的上下文进行纠错,具体可以包括:
步骤S11、确定预选分词,所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;
在实际应用中,可以选取分词序列中距离输入光标最近的至少一个分词作为预选分词,以检验所述预选分词是否为错误分词,以及确定所述预选分词的错误类别。具体地,可以将输入光标之前的第一个分词作为预选分词。例如,对于上下文文本信息“一起/去/去/泰国/旅游”,当输入光标位于“游”字之后时,可以将分词“旅游”作为预选分词,判断“旅游”是否为错误分词;当用户移动输入光标至“国”字之后时,可以将“泰国”作为预选分词,判断“泰国”是否为错误分词;当用户移动输入光标至第二个“去”字之后时,可以将分词“去”作为预选分词,判断第二个“去”字是否为错误分词。
为了便于说明,本发明实施例以输入光标之前的第一个分词作为预选分词进行说明,可以理解,在实际应用中,可以将输入光标之前的多个连续分词作为预选分词,例如上述示例中,当输入光标位于“游”字之后时,可以将“泰国旅游”作为预选分词,或者,还可以将输入光标之后的连续分词作为预选分词,本发明实施例对于预选分词的选择方式不加以限制。
步骤S12、根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
在实际应用中,由于在正确的文本中,各分词之间通常具有二元、三元或者更多元的连接关系,因此,本发明实施例可以根据所述预选分词与其对应的上文和/或下文之间的多元关系,判断所述预选分词是否为输入不合理的、错误的分词,并且确定所述预选分词对应的错误类别,以对错误的预选分词就行纠错。
步骤S13、根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
所述错误类别具体可以包括多输、错输、漏输中的至少一种,相应地,本发明实施例对上述错误类别进行纠错具体可以包括:删除、替换、增加等操作。
本发明实施例可以提供确定所述预选分词对应错误类别、以及对所述预选分词进行纠错的如下方案:
方案一
方案一适用于错误类别为多输的场景,本发明实施例根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词为多输的错误分词,从而可以删除多输的错误分词。
在本发明的一种可选实施例中,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,具体可以包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后,所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
假设对输入光标处的上文进行分词得到上文分词序列“分词1/分词2/分词3”,对输入光标处的下文进行分词得到下文分词序列“分词4/分词5”,此时输入光标位于“分词3”之后,将“分词3”作为预选分词。如果“分词3”与其对应的上文之间不存在多元关系,也即不存在三元关系“分词1/分词2/分词3”,也不存在二元关系“分词2/分词3”;但是在删除预选分词“分词3”之后,分词序列“分词1/分词2/分词4/分词5”中的连续分词之间存在多元关系,也即存在二元关系“分词2/分词4”、或存在三元关系“分词1/分词2/分词4”、或存在三元关系“分词2/分词4/分词5”。此时,可以确定预选分词“分词3”为多输的错误分词,因此,可以直接删除“分词3”,或者向用户发出提示,询问用户是否删除“分词3”。
在本发明的一种应用示例中,当用户移动输入光标时,输入法程序开始对输入光标处的上下文进行纠错处理,以上下文文本信息“一起去去泰国旅游”为例,当用户将输入光标移动到第二个“去”字之后时,输入法程序对输入光标处的上文“一起去去”进行分词,得到上文分词序列“一起/去/去”,对输入光标处的下文“泰国旅游”进行分词,得到下文分词序列“泰国/旅游”。将第二个“去”作为预选分词,通过查询系统n元库,第二个“去”与其上文不存在多元关系,也即不存在三元关系“一起/去/去”,也不存在二元关系“去/去”;但是在删除第二个“去”之后,分词序列“一起/去/泰国/旅游”中的连续分词之间存在多元关系,也即存在二元关系“去/泰国”、存在三元关系“一起/去/泰国”、以及存在三元关系“去/泰国/旅游”。因此,可以判定第二个“去”字是多输的错误分词,可以删除第二个“去”字。
这样,通过本发明实施例,在用户移动输入光标的过程中,输入法程序即可对输入光标处的上下文进行纠错,例如直接删除其中多输的错误分词,从而可以节省用户人工检查以及手动删除的过程,进而可以提高用户的输入效率。
方案二
方案二适用于错误类别为错输的场景,本发明实施例根据所述分词序列中连续分词之间的多元关系,确定所述预选分词为错输的错误分词,从而可以删除错输的错误分词,并且提供可替换的正确分词。
在本发明的一种可选实施例中,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,具体可以包括:
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输,从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
在本发明的一种应用示例中,当用户移动输入光标时,输入法程序开始对输入光标处的上下文进行纠错处理,以上下文文本信息“一起去太过旅游”为例。当用户将输入光标移动到“过”字之后时,输入法程序对光标处的上文“一起去太过”进行分词,得到上文分词序列“一起/去/太过”,对光标处的下文“旅游”进行分词,得到下文分词序列“旅游”。将“太过”作为预选分词,通过查询系统n元库,预选分词“太过”与其上文之间不存在多元关系,也即不存在三元关系“一起/去/太过”,也不存在二元关系“去/太过”;并且,预选分词“太过”与其下文之间不存在多元关系,也即不存在二元关系“太过/旅游”。因此,可以判定“太过”为错输的错误分词,可以删除“太过”。
在从分词序列“一起/去/太过”中删除分词“太过”之后,可以获取并展示用于替换错误分词“太过”的联想候选项。本发明实施例可以采取现有的联想方法,例如,可以根据“一起去”查询系统n元库,得到与“一起去”具有多元关系的词作为联想候选项,例如查询得到“玩”、“吃饭”、“旅游”、“泰国”等,以供用户进行选择。
然而,这样获取的联想候选项往往偏离用户的输入意图,为了向获取更加准确的可用于替换所述预选分词的联想候选项,本发明实施例不仅考虑联想候选项与其上文之间的多元关系,还考虑与其下文之间的多元关系,以及与错输的预选分词之间的相似性。
在本发明的一种可选实施例中,所述获取用于替换所述预选分词的联想候选项,具体可以包括:
根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
具体地,本发明实施例首先通过查询系统n元库获取与上文之间具有多元关系的替换联想候选项,然后仅保留与错输的预选分词相似度较高、且与下文之间具有多元关系的目标联想候选项。例如,“泰国”与“太过”的发音相似度较高,用户很有可能输入了正确的拼音串“taiguo”,却选择了错误的候选项,此外,“泰国”与下文“旅游”具有二元关系,因此,用户欲输入的正确分词为“泰国”的概率较高,可以保留该联想候选项,删除与错输的预选分词相似度较地、或者与下文之间不存在多元关系的联想候选项如“玩”、“吃饭”、“旅游”等。
这样,通过本发明实施例,在用户移动输入光标的过程中,输入法程序即可对输入光标处的上下文进行纠错,例如直接删除其中错输的错误分词,并且向用户展示用于替换错误分词的联想候选项,从而可以节省用户人工检查以及手动删除并重新输入的过程,进而提高用户的输入效率。
方案三
方案三适用于错误类别为漏输的场景,本发明实施例根据所述分词序列中连续分词之间的多元关系,确定是所述分词序列中是否存在漏输的文本,并且提供可选择的联想候选项。
在本发明的一种可选实施例中,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,具体可以包括:
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输,对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
在本发明的一种应用示例中,当用户移动输入光标时,输入法程序开始对输入光标处的上下文进行纠错处理,以上下文文本信息“去海边沙子”为例,当用户将输入光标移动到“边”字之后时,输入法程序对输入光标处的上文“去海边”进行分词,得到上文分词序列“去/海边”,对输入光标处的下文“沙子”进行分词,得到分词序列“沙子”。将“海边”作为预选分词,通过查询系统n元库,预选分词“海边”与其上文之间存在多元关系,也即存二元关系“去/海边”;并且,预选分词“海边”与其下文之间不存在多元关系,也即不存在二元关系“海边/沙子”。因此,可以判定“海边”对应的错误类别为漏输,也即“海边”后有漏输的分词,则可以根据“海边”进行联想,并结合下文“沙子”,可以联想得到联想候选项“挖”、“玩”等,向用户展示联想候选项“挖”、“玩”等,以便用户进行选择。
这样,通过本发明实施例,在用户移动输入光标的过程中,输入法程序即可对输入光标处的上下文进行纠错,在出现漏输的情况时,可以直接向用户展示漏输的联想候选项,从而可以节省用户人工检查以及手动输入的过程,从而可以提高用户的输入效率。
综上,本发明实施例的输入方法,在用户的输入过程中,本发明实施例对输入光标处的上下文进行分词,得到分词序列,由于在正确的文本中,各分词之间通常具有二元、三元或者更多元的连接关系,因此,本发明实施例根据所述分词序列中连续分词之间的多元关系,可以判断所述分词序列中是否存在输入不合理的、错误的分词,进而可以对错误的分词进行处理,例如,可以对错误的分词进行纠错,以得到对应的纠错结果。由此,通过本发明实施例,可以自动对输入光标处的上下文进行纠错,以节省用户人工检查以及手动删除错误并重新输入的过程,提高用户的输入效率。或者,还可以根据分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行联想,使得联想结果更加合理、准确。
方法实施例二
本发明实施例对所述输入光标处的上下文进行处理,具体可以包括对所述输入光标处的上下文进行纠错或者联想。本实施例详细说明对所述输入光标处的上下文进行联想的具体过程。参照图2,示出了本发明的一种输入方法实施例二的步骤流程图,具体可以包括:
步骤201、对输入光标处的上下文进行分词,以得到分词序列;所述分词序列可以包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
步骤202、根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行联想,以得到对应的联想结果。
在实际应用中,当用户移动输入光标时,输入法程序可以获取输入光标处的上下文文本信息,并且自动对已输入的上文进行联想,得到联想候选项。例如,对于上下文文本信息“去海边抓”,当输入光标位于“抓”字之后时,输入法程序会对“抓”进行联想,得到与“抓”具有二元关系的联想候选项“住”、“小偷”、“螃蟹”等。但是“去海边抓小偷”显然不符合常理,因此联想结果不够准确,为了提高联想结果的准确性,本发明实施例对输入光标处的上下文进行分词,得到分词序列,在进行联想的过程中,考虑分词序列中连续分词之间的多元关系,以使联想候选项和分词序列中的连续分词之间存在多元关系,进而使得联想结果更加合理、准确。
在本发明的一种可选实施例中,对所述输入光标处的上下文进行联想,以得到对应的联想结果,具体可以包括:
对所述上文分词序列进行联想,以得到第一联想候选项;
根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
在本发明的一种可选实施例中,所述对所述第一联想候选项进行过滤,以得到第二联想候选项,具体可以包括:
根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
在本发明的一种应用示例中,假设上下文文本信息为“ABCDEF”,其中,A、B、C、D、E、F分别表示一个词汇,当输入光标移动到“C”之后时,获取上文分词序列为“A/B/C”,下文分词序列为“D/E/F”。
首先,对上文分词序列“A/B/C”进行联想,具体地,可以根据分词“C”查询系统二元词库,以得到与“C”具有二元关系的第一联想候选项,还可以根据“B/C”查询系统三元词库,以得到与“B/C”具有三元关系的第一联想候选项;此外,还可以对上文分词序列中的连续分词拼接进行联想,例如对分词“B”和“C”拼接得到拼接后的分词“BC”,根据分词“BC”查询系统二元词库,以得到与“BC”具有二元关系的第一联想候选项。可以理解,本发明实施例对于拼接的连续分词的数目不加以限制。
然后,根据下文分词序列中的连续分词对第一联想候选项进行过滤,以得到第二联想候选项。例如,已获取的第一联想候选项包括:“X”和“Y”,则查询系统n元库中是否存在“X”和“D”之间的二元关系,或者是否存在“X”与“D/E”是否具有三元关系等,若“X”与下文分词序列“D/E/F”中至少一个连续分词之间存在多元关系,则将“X”作为第二联想候选项进行保留,否则过滤掉“X”,采用与过滤“X”相同的方法对“Y”进行过滤。最终得到过滤后的第二联想候选项,可以向用户展示所述第二联想候选项。
在本发明的一种应用示例中,对于上下文文本信息“去海边螃蟹”,当输入光标移动到“边”字之后时,可以得到上文分词序列“去/海边”,以及下文分词序列“螃蟹”。首先,对上文分词序列“去/海边”进行联想,具体地,可以根据分词“海边”查询系统n元库,假设查找得到与“海边”具有二元关系的第一联想候选项包括:“玩”、“游泳”、“抓”等。当然,本发明实施例可以对上文分词序列中的多个连续分词进行联想,例如,还可以对“去/海边”进行联想,查询系统n元库中与“去/海边”存在三元关系的第一联想候选项。然后,对所述第一联想候选项进行过滤,以得到第二联想候选项,具体地,判断上述第一联想候选项“玩”、“游泳”、“抓”等是否和下文分词序列中的连续分词“螃蟹”之间存在多元关系,由于“游泳”和“螃蟹”之间不存在多元关系,因此,可以过滤掉第一联想候选项“游泳”。最终向用户展示第二联想候选项“玩”、“抓”,以供用户进行选择。
综上,本发明实施例的输入方法,在进行联想的过程中,考虑分词序列中连续分词之间的多元关系,仅保留与上文分词序列以及下文分词序列具有多元关系的第二联想候选项,以使联想结果和分词序列中的连续分词存在多元关系,进而使得联想结果更加合理、准确。
装置实施例
参照图3,示出了本发明的一种输入装置实施例一的结构框图,具体可以包括:
分词模块301,用于对输入光标处的上下文进行分词,以得到分词序列;所述分词序列可以包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
处理模块302,用于根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。
可选地,所述处理模块302,具体可以包括:
纠错子模块,用于对所述输入光标处的上下文进行纠错;所述纠错子模块,具体可以包括:
预选分词确定单元,用于确定预选分词,所述预选分词可以包括:所述分词序列中距离输入光标最近的至少一个分词;
错误类别确定单元,用于根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
纠错单元,用于根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
可选地,所述错误类别确定单元,可以包括:
第一确定子单元,用于若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
可选地,所述错误类别确定单元,可以包括:
第二确定子单元,用于若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输,从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
可选地,所述第二确定子单元,具体可以包括:
获取子单元,用于根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
确定子单元,用于根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
可选地,所述错误类别确定单元,可以包括:
第三确定子单元,用于若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输,对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
可选地,所述处理模块302,具体可以包括:
联想子模块,用于对所述输入光标处的上下文进行联想;所述联想子模块,具体可以包括:
联想单元,用于对所述上文分词序列进行联想,以得到第一联想候选项;
过滤单元,用于根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
可选地,所述过滤单元,可以包括:
查询过滤子单元,用于根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明公开了一种用于输入的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。
可选地,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行纠错;所述对所述输入光标处的上下文进行纠错,包括:
确定预选分词,所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;
根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
可选地,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
可选地,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输,从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
可选地,所述获取用于替换所述预选分词的联想候选项,包括:
根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
可选地,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输,对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
可选地,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行联想;所述对所述输入光标处的上下文进行联想,包括:
对所述上文分词序列进行联想,以得到第一联想候选项;
根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
可选地,所述对所述第一联想候选项进行过滤,以得到第二联想候选项,包括:
根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
图4是根据一示例性实施例示出的一种用于输入的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种输入方法,所述方法包括:对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种输入方法、一种输入装置和一种用于输入的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (25)
1.一种输入方法,其特征在于,所述方法包括:
对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理;
其中,所述多元关系包括:
预选分词与其对应的上文或下文之间的多元关系;所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;和/或
在删除所述预选分词之后、所述分词序列中的连续分词之间的多元关系;
所述对所述输入光标处的上下文进行处理,包括:确定所述预选分词对应的错误类别;所述错误类别的确定方式包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输;和/或
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输;和/或
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输。
2.根据权利要求1所述的方法,其特征在于,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行纠错;
其中,所述对所述输入光标处的上下文进行纠错,包括:
确定预选分词;
根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
4.根据权利要求2所述的方法,其特征在于,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输;
从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
5.根据权利要求4所述的方法,其特征在于,所述获取用于替换所述预选分词的联想候选项,包括:
根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
6.根据权利要求2所述的方法,其特征在于,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输;
对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
7.根据权利要求1所述的方法,其特征在于,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行联想;
其中,所述对所述输入光标处的上下文进行联想,包括:
对所述上文分词序列进行联想,以得到第一联想候选项;
根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
8.根据权利要求7所述的方法,其特征在于,所述对所述第一联想候选项进行过滤,以得到第二联想候选项,包括:
根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
9.一种输入装置,其特征在于,包括:
分词模块,用于对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
处理模块,用于根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理;
其中,所述多元关系包括:
预选分词与其对应的上文或下文之间的多元关系;所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;和/或
在删除所述预选分词之后、所述分词序列中的连续分词之间的多元关系;
所述对所述输入光标处的上下文进行处理,包括:确定所述预选分词对应的错误类别;所述错误类别的确定方式包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输;和/或
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输;和/或
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输。
10.根据权利要求9所述的装置,其特征在于,所述处理模块,包括:
纠错子模块,用于对所述输入光标处的上下文进行纠错;
所述纠错子模块,包括:
预选分词确定单元,用于确定预选分词,所述预选分词可以包括:所述分词序列中距离输入光标最近的至少一个分词;
错误类别确定单元,用于根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
纠错单元,用于根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
11.根据权利要求10所述的装置,其特征在于,所述错误类别确定单元,包括:
第一确定子单元,用于若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
12.根据权利要求10所述的装置,其特征在于,所述错误类别确定单元,包括:
第二确定子单元,用于若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输,从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
13.根据权利要求12所述的装置,其特征在于,所述第二确定子单元,包括:
获取子单元,用于根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
确定子单元,用于根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
14.根据权利要求10所述的装置,其特征在于,所述错误类别确定单元,包括:
第三确定子单元,用于若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输,对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
15.根据权利要求9所述的装置,其特征在于,所述处理模块,包括:
联想子模块,用于对所述输入光标处的上下文进行联想;
所述联想子模块,包括:
联想单元,用于对所述上文分词序列进行联想,以得到第一联想候选项;
过滤单元,用于根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
16.根据权利要求15所述的装置,其特征在于,所述过滤单元,包括:
查询过滤子单元,用于根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
17.一种用于输入的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对输入光标处的上下文进行分词,以得到分词序列;所述分词序列包括:所述输入光标处的上文对应的上文分词序列、以及所述输入光标处的下文对应的下文分词序列;
根据所述分词序列中连续分词之间的多元关系,对所述输入光标处的上下文进行处理;
其中,所述多元关系包括:
预选分词与其对应的上文或下文之间的多元关系;所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;和/或
在删除所述预选分词之后、所述分词序列中的连续分词之间的多元关系;
所述对所述输入光标处的上下文进行处理,包括:确定所述预选分词对应的错误类别;所述错误类别的确定方式包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输;和/或
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输;和/或
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输。
18.根据权利要求17所述的装置,其特征在于,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行纠错;
其中,所述对所述输入光标处的上下文进行纠错,包括:
确定预选分词,所述预选分词包括:所述分词序列中距离输入光标最近的至少一个分词;
根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别;
根据所述错误类别,对所述预选分词进行纠错,以得到对应的纠错候选。
19.根据权利要求18所述的装置,其特征在于,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文或下文之间不存在多元关系,且在删除所述预选分词之后、所述分词序列中的连续分词之间存在多元关系,则确定所述预选分词的错误类别为多输,从所述分词序列中删除所述预选分词。
20.根据权利要求18所述的装置,其特征在于,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文和下文之间均不存在多元关系,则确定所述预选分词的错误类别为错输;
从所述分词序列中删除所述预选分词,以及获取用于替换所述预选分词的联想候选项。
21.根据权利要求20所述的装置,其特征在于,所述获取用于替换所述预选分词的联想候选项,包括:
根据删除后的分词序列中连续分词之间的多元关系,获取替换联想候选项;
根据已删除的预选分词与所述替换联想候选项之间的相似性,确定用于替换所述预选分词的目标联想候选项。
22.根据权利要求18所述的装置,其特征在于,所述根据所述预选分词与其对应的上文和/或下文之间的多元关系,确定所述预选分词对应的错误类别,包括:
若所述预选分词与其对应的上文之间存在多元关系,且所述预选分词与其对应的下文之间不存在多元关系,则确定所述预选分词的错误类别为漏输,
对所述预选分词与其对应的上文进行联想,以获取漏输的联想候选项。
23.根据权利要求17所述的装置,其特征在于,所述对所述输入光标处的上下文的处理,包括对所述输入光标处的上下文进行联想;
其中,所述对所述输入光标处的上下文进行联想,包括:
对所述上文分词序列进行联想,以得到第一联想候选项;
根据所述第一联想候选项与所述下文分词序列中的连续分词之间的多元关系,对所述第一联想候选项进行过滤,以得到第二联想候选项;其中,所述第二联想候选项与所述下文分词序列中的连续分词之间存在多元关系。
24.根据权利要求23所述的装置,其特征在于,所述对所述第一联想候选项进行过滤,以得到第二联想候选项,包括:
根据所述第一联想候选项和所述下文分词序列中的连续分词,查询多元关系库,若所述第一联想候选项和所述下文分词序列中的连续分词之间存在多元关系,则将所述第一联想候选项作为第二联想候选项。
25.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至8中一个或多个所述的输入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807323.5A CN109471538B (zh) | 2017-09-08 | 2017-09-08 | 一种输入方法、装置和用于输入的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807323.5A CN109471538B (zh) | 2017-09-08 | 2017-09-08 | 一种输入方法、装置和用于输入的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109471538A CN109471538A (zh) | 2019-03-15 |
CN109471538B true CN109471538B (zh) | 2022-07-05 |
Family
ID=65658197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710807323.5A Active CN109471538B (zh) | 2017-09-08 | 2017-09-08 | 一种输入方法、装置和用于输入的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109471538B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612442A (zh) * | 2019-09-19 | 2021-04-06 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727271A (zh) * | 2008-10-22 | 2010-06-09 | 北京搜狗科技发展有限公司 | 一种提供纠错提示的方法、装置及输入法系统 |
CN103473003A (zh) * | 2013-09-12 | 2013-12-25 | 天津三星通信技术研究有限公司 | 一种字符输入的纠错方法及其装置 |
CN104615591A (zh) * | 2015-03-10 | 2015-05-13 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
CN106527756A (zh) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | 一种对输入信息进行智能纠错的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8141036B2 (en) * | 2005-07-07 | 2012-03-20 | Oracle International Corporation | Customized annotation editing |
US20070016862A1 (en) * | 2005-07-15 | 2007-01-18 | Microth, Inc. | Input guessing systems, methods, and computer program products |
CN101290632B (zh) * | 2008-05-30 | 2011-09-14 | 北京搜狗科技发展有限公司 | 一种用户词参与智能组词输入的方法及一种输入法系统 |
CN103365573B (zh) * | 2012-03-27 | 2017-07-21 | 北京搜狗科技发展有限公司 | 一种对多键输入字符进行识别的方法和装置 |
CN104298672B (zh) * | 2013-07-16 | 2018-09-11 | 北京搜狗科技发展有限公司 | 一种输入的纠错方法和装置 |
CN104281649B (zh) * | 2014-09-09 | 2017-04-19 | 北京搜狗科技发展有限公司 | 一种输入方法、装置及电子设备 |
CN106325488B (zh) * | 2015-07-09 | 2019-07-09 | 北京搜狗科技发展有限公司 | 一种输入方法、输入装置、服务器和输入系统 |
-
2017
- 2017-09-08 CN CN201710807323.5A patent/CN109471538B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727271A (zh) * | 2008-10-22 | 2010-06-09 | 北京搜狗科技发展有限公司 | 一种提供纠错提示的方法、装置及输入法系统 |
CN103473003A (zh) * | 2013-09-12 | 2013-12-25 | 天津三星通信技术研究有限公司 | 一种字符输入的纠错方法及其装置 |
CN104615591A (zh) * | 2015-03-10 | 2015-05-13 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
CN106527756A (zh) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | 一种对输入信息进行智能纠错的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109471538A (zh) | 2019-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688399B (zh) | 一种输入方法和装置、一种用于输入的装置 | |
CN107918496B (zh) | 一种输入纠错方法和装置、一种用于输入纠错的装置 | |
CN107422872B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN113987128A (zh) | 相关文章搜索方法、装置、电子设备和存储介质 | |
CN108628461B (zh) | 一种输入方法和装置、一种更新词库的方法和装置 | |
CN109471538B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN112133295A (zh) | 语音识别方法、装置及存储介质 | |
CN109887492B (zh) | 一种数据处理方法、装置和电子设备 | |
CN109799916B (zh) | 一种候选项联想方法和装置 | |
CN108108356B (zh) | 一种文字翻译方法、装置及设备 | |
CN111324214A (zh) | 一种语句纠错方法和装置 | |
CN110837741B (zh) | 一种机器翻译方法、装置及系统 | |
CN111414766B (zh) | 一种翻译方法及装置 | |
EP3812951A1 (en) | Augmenting biligual training corpora by replacing named entities | |
CN110780749B (zh) | 一种字符串纠错方法和装置 | |
CN109992121B (zh) | 一种输入方法、装置和用于输入的装置 | |
CN107977089B (zh) | 一种输入方法和装置、一种用于输入的装置 | |
CN109558017B (zh) | 一种输入方法、装置和电子设备 | |
CN109725736B (zh) | 一种候选排序方法、装置及电子设备 | |
CN112612442A (zh) | 一种输入方法、装置和电子设备 | |
CN107102747B (zh) | 一种信息输入方法、装置和用于信息输入的装置 | |
CN112528129B (zh) | 多语种翻译系统语种搜索方法及装置 | |
CN110633017A (zh) | 一种输入方法、装置和用于输入的装置 | |
CN109271094B (zh) | 一种文本编辑的方法、装置及设备 | |
CN113127613B (zh) | 聊天信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |