CN103885608A - 一种输入方法及系统 - Google Patents

一种输入方法及系统 Download PDF

Info

Publication number
CN103885608A
CN103885608A CN201410104464.7A CN201410104464A CN103885608A CN 103885608 A CN103885608 A CN 103885608A CN 201410104464 A CN201410104464 A CN 201410104464A CN 103885608 A CN103885608 A CN 103885608A
Authority
CN
China
Prior art keywords
entry
candidate entry
english
language
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410104464.7A
Other languages
English (en)
Inventor
黄艺华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410104464.7A priority Critical patent/CN103885608A/zh
Publication of CN103885608A publication Critical patent/CN103885608A/zh
Priority to JP2014264836A priority patent/JP6258191B2/ja
Priority to EP14200675.8A priority patent/EP2921935A1/en
Priority to US14/588,030 priority patent/US10019436B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明实施例提供了一种输入方法,包括:接收输入的至少两个英文字符;依据所述至少两个英文字符,获得基于第一语言的第一候选词条;依据所述至少两个英文字符,获得基于第二语言的第二候选词条;依据所述第一候选词条和所述第二候选词条,获得第三候选词条;本发明实施例还提供一种输入系统。根据本发明实施例提供的技术方案,可以实现提高候选显示框中显示的候选词条的准确性。

Description

一种输入方法及系统
【技术领域】
本发明涉及输入法技术领域,尤其涉及一种输入方法及系统。
【背景技术】
日文输入法中通常会存在日文和英文混合输入的情况,即用户输入的英文字符串中,包含假名字符对应的英文字符和英文词条对应的英文字符,因此需要依据输入的英文字符串进行处理,以识别出英文字符串中的英文词条和假名字符。
目前,日文输入法中对英文字符串进行处理的方法是:从英文字符串的第一个英文字符开始,利用从左到右正向匹配算法,将英文字符串进行切分,获得切分结果,然后依次在输入法词典中进行匹配,如果依据切分结果匹配出一个假名字符,则判断切分结果为假名字符;如果切分结果匹配不出假名字符,则判断该切分结果为英文字符。
然而,当输入的英文字符串中包含日文和英文时,由于优先获得英文字符串对应的假名字符,因此,将丢失英文词汇的候选词条,从而无法获得有效地候选词条,导致显示框中显示的候选词条的准确性较低。
【发明内容】
有鉴于此,本发明实施例提供了一种输入方法及系统,可以实现提高候选显示框中显示的候选词条的准确性。
本发明实施例提供了一种输入方法,包括:
接收输入的至少两个英文字符;
依据所述至少两个英文字符,获得基于第一语言的第一候选词条;
依据所述至少两个英文字符,获得基于第二语言的第二候选词条;
依据所述第一候选词条和所述第二候选词条,获得第三候选词条。
上述方法中,所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为假名词条;或者,
所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为汉字词条。
上述方法中,所述依据所述至少两个英文字符,获得基于第一语言的第一候选词条,包括:
对所述至少两个英文字符进行切分处理,以获得切分结果;
获得所述切分结果的概率信息,所述概率信息指示所述切分结果是基于第一语言的候选词条的概率;
将大于预设的概率阈值的概率信息所对应的切分结果作为所述基于第一语言的第一候选词条。
上述方法中,所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为假名词条,所述获得所述切分结果的概率信息,包括:
利用如下公式获得所述切分结果的概率信息P(E|c):
P(E|c)=P(E)P(c|E)/(P(J)|P(c|J)+P(E)P(c|E))
其中,P(E)为切分结果c是英文单词的先验概率,P(c|E)为英文词汇中出现切分结果c的条件概率,P(J)为切分结果c是假名字符的先验概率,P(c|J)为假名字符对应的英文字符串中出现切分结果c的条件概率。
上述方法中,所述依据所述第一候选词条和所述第二候选词条,获得第三候选词条,包括:
获得所述第一候选词条在输入的至少两个英文字符中的第一位置信息;
获得所述第二候选词条对应的英文字符串在输入的至少两个英文字符中的第二位置信息;
依据所述基于第一语言的第一候选词条、所述第一位置信息、所述基于第二语言的第二候选词条和所述第二位置信息,获得所述第三候选词条。
本发明实施例还提供了一种输入系统,包括:
输入单元,用于接收输入的至少两个英文字符;
词条处理单元,用于依据所述至少两个英文字符,获得基于第一语言的第一候选词条;依据所述至少两个英文字符,获得基于第二语言的第二候选词条;依据所述第一候选词条和所述第二候选词条,获得第三候选词条。
上述系统中,所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为假名词条;或者,
所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为汉字词条。
上述系统中,所述词条处理单元具体用于:
对所述至少两个英文字符进行切分处理,以获得切分结果;
获得所述切分结果的概率信息,所述概率信息指示所述切分结果是基于第一语言的候选词条的概率;
将大于预设的概率阈值的概率信息所对应的切分结果作为所述基于第一语言的第一候选词条。
上述系统中,所述基于第一语言的第一候选词条为英文词条,所述词条处理单元具体用于:
利用如下公式获得所述切分结果的概率信息P(E|c):
P(E|c)=P(E)P(c|E)/(P(J)|P(c|J)+P(E)P(c|E))
其中,P(E)为切分结果c是英文单词的先验概率,P(c|E)为英文词汇中出现切分结果c的条件概率,P(J)为切分结果c是假名字符的先验概率,P(c|J)为假名字符对应的英文字符串中出现切分结果c的条件概率。
上述系统中,所述词条处理单元具体用于:
获得所述第一候选词条在输入的至少两个英文字符中的第一位置信息;
获得所述第二候选词条对应的英文字符串在输入的至少两个英文字符中的第二位置信息;
依据所述基于第一语言的第一候选词条、所述第一位置信息、所述基于第二语言的第二候选词条和所述第二位置信息,获得所述第三候选词条。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
当输入英文字符串时,分别获得基于两种语言的候选词条,因此当进行英文和日文混合输入或者英文和中文混合输入时,不会优先选择一种语言的候选词条,因此不会丢失候选词条,可以获得有效地候选词条,从而可以提高显示框中显示的候选词条的准确性。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1(a)~图1(b)是本发明实施例所提供的技术方案使用的系统;
图2是本发明实施例所提供的输入方法的流程示意图;
图3是本发明实施例所提供的输入方法中输入的英文字符串的示意图;
图4是本发明实施例所提供的输入系统的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例所提供的技术方案使用的系统如图1所示,该系统可以包括输入单元、词条处理单元,如图1(a)所示,词条处理单元可以位于客户端,如图1(b)所示,词条处理单元也可以位于服务器。词条处理单元主要用于依据输入的英文字符,获得候选词条。其中,所述客户端可以为输入法客户端,所述输入法客户端包括所有用户设备上运行的输入法客户端,所述用户设备可以包括个人计算机(Personal Computer,PC)、笔记本电脑、手机或平板电脑。
本发明实施例给出一种输入方法,请参考图2,其为本发明实施例所提供的输入方法的流程示意图,如图所示,该方法包括以下步骤:
S201,接收输入的至少两个英文字符。
具体的,当用户使用客户端,并在客户端中输入字符时,客户端会接收到用户输入的至少两个英文字符。
需要说明的是,日文输入法中包括利用假名字符输入日文和利用英文字符输入日文两种输入方式,只有在利用英文字符输入日文时才会出现日文和英文混合输入的情况,才需要对输入的英文字符进行处理,以获得假名的候选词条和/或英文的候选词条;同理,中文输入法中包括多种输入方式,如拼音输入方式、五笔输入方式等,只有在利用拼音输入方式时才会出现中文和英文混合输入的情况,才需要对输入的英文字符进行处理,以获得汉字的候选词条和/或英文的候选词条。因此,本步骤中可以接收输入的至少两个英文字符,并依据输入的至少两个英文字符进行处理。
S202,依据所述至少两个英文字符,获得基于第一语言的第一候选词条。
具体的,在接收到输入的至少两个英文字符后,依据至少两个英文字符,获得基于第一语言的第一候选词条,其中,所述基于第一语言的第一候选词条可以为英文词条。
举例说明,依据至少两个英文字符,获得基于第一语言的第一候选词条的方法可以包括:
首先,对所述至少两个英文字符l1l2…ln进行切分处理,以获得切分结果c=lili+1…lj,其中,n为大于或者等于2的整数,i为大于或者等于1的整数,j为大于或者等于i,且小于或者等于n的整数。获得的切分结果c中包括至少一个英文字符。
请参考图3,其为本发明实施例所提供的输入方法中输入的英文字符串的示意图,如图3所示,输入的英文字符是“iphone”,则切分结果包括“i”、“ip”、“iph”、“ipho”、“iphon”、“iphone”、“p”、“ph”、“pho”等。
然后,获得所述切分结果的概率信息,所述概率信息指示所述切分结果是基于第一语言的候选词条的概率。
例如,基于第一语言的第一候选词条可以为英文词条,基于第二语言的第二候选词条可以为假名词条,则所述获得所述切分结果的概率信息的方法可以是:
存在P(c)=P(J,c)+P(E,c),其中,P(c)为切分结果c出现的先验概率,P(J,c)为切分结果c出现且切分结果c表示假名字符的概率,P(E,c)为切分结果c出现且切分结果c表示英文单词的概率。
利用如下公式获得所述切分结果的概率信息P(E|c):
P(E|c)=P(E,c)/P(c)
=P(E,c)/(P(J,c)+P(E,c))
=P(E)P(c|E)/(P(J)|P(c|J)+P(E)P(c|E))
其中,P(E,c)为切分结果c出现且切分结果c表示英文单词的概率,P(c)为切分结果c出现的先验概率,P(J,c)为切分结果c出现且切分结果c表示假名字符的概率,P(E)为切分结果c是英文单词的先验概率,P(c|E)为英文词汇中出现切分结果c的条件概率,P(J)为切分结果c是假名字符的先验概率,P(c|J)为假名字符对应的英文字符串中出现切分结果c的条件概率。
例如,可以利用如下公式获得切分结果c是假名字符的先验概率P(J):
P(J)=C(J)/C(W)
其中,C(J)为依据输入法客户端中输入词条样本库统计获得的假名词条的数目,C(W)为依据输入法客户端中输入词条样本库统计获得的所有词条的总数目。
其中,切分结果c是英文单词的先验概率P(E)和切分结果c是假名字符的先验概率P(J),可以预先利用统计的方法计算获得,可以为每个输入法客户端存储对应一个英文单词的先验概率P(E)和一个假名字符的先验概率P(J),当需要获得切分结果c是英文单词的先验概率P(E)和切分结果c是假名字符的先验概率P(J)时,可以依据预先存储的对应关系,获得输入法客户端对应的英文单词的先验概率P(E)和假名字符的先验概率P(J)。
其中,获得假名字符对应的英文字符串中出现切分结果c的条件概率P(c|J)的方法可以是:假设日文词汇的读音是以假名字符为单位的1阶马尔科夫过程,即第一个假名字符的概率分布只与起始位置有关,以第i个假名字符的概率分布只与第i-1个假名字符有关为例,在至少一个假名字符k1k2…kn之前加上一个假名字符,用b表示,同时在至少一个假名字符k1k2…kn之后加上一个假名字符,用e表示,则至少一个假名字符k1k2…kn对应的英文字符串中出现至少一个假名字符k1k2…kn的条件概率P(k|J)可以为:
P(k|J)=P(k1|b)P(k2|k1)…P(kn|kn-1)P(e|kn)
其中,P(k1|b)为假名词条中以假名字符k1为起始字符的概率,P(e|kn)为假名词条中以假名字符kn为结束字符的概率,P(ki|ki-1)为假名词条中假名字符ki-1之后出现假名字符ki的概率,其中,可以依据输入法词典中的假名词条进行统计,以获得概率P(k1|b)、概率P(e|kn)和概率P(ki|ki-1)。
例如,可以利用如下公式获得假名词条中假名字符ki-1之后出现假名字符ki的概率P(ki|ki-1):
P(ki|ki-1)=C(ki-1,ki)/C(ki-1)
其中,C(ki-1,ki)为依据输入法客户端中输入词条样本库统计获得的假名词条中包含字符串ki-1ki的数目,C(W)为依据输入法客户端中输入词条样本库统计获得的假名词条中包含字符串ki-1的数目。
按照日文切分规则对至少一个假名字符k1k2…kn进行切分,由于日文切分不会产生切分歧义,因此若不存在有效切分,则假名字符对应的英文字符串中出现切分结果c的条件概率P(c|J)=0,反之,若存在有效切分,依据切分结果c,利用上述方法,获得假名字符对应的英文字符串中出现切分结果c的条件概率P(c|J),即P(c|J)=P(k|J)。
其中,获得英文词汇中出现切分结果c的条件概率P(c|E)的方法可以是:假设英文词汇的读音是以字母为单位的2阶马尔科夫过程,即第i个字母的概率分布只与第i-1个字母和第i-2个字母有关,在至少一个英文字符c1c2…cn之前加上两个英文字符,用b1b2表示,同时在至少一个英文字符c1c2…cn之后加上英文字符,用e表示,则英文词汇中出现至少一个英文字符c1c2…cn(相当于上述切分结果c)的条件概率P(c|E)可以为:
P(c|E)=P(c1|b1,b2)P(c2|b2,c1)…P(cn|cn-2,cn-1)P(e|cn-1,cn)
其中,P(c1|b1,b2)为英文词条中以英文字母c1为起始字母的概率,P(c2|b2,c1)为英文词条中英文字母c2位于英文字母c1后,且英文字母c2在英文词条中排在第二位的概率,P(cn|cn-2,cn-1)为英文词条中英文字母cn位于英文字母cn-2和英文字母cn-1后的概率,P(e|cn-1,cn)为英文词条中以英文字符串cn-1cn结尾的概率。
最后,获得切分结果的概率信息P(E|c)后,可以将切分结果的概率信息P(E|c)与预设的概率阈值进行比较,将大于预设的概率阈值的概率信息所对应的切分结果作为本发明实施例中基于第一语言的第一候选词条。例如,所述预设的概率阈值可以等于0.5。这里,利用概率阈值对切分结果进行筛选,以获得第一候选词条,可以对由于切分歧义产生的大量切分结果进行滤掉,可以降低后续的处理量。例如,如图3所示,利用概率阈值,对输入的英文字符“iphone”的切分结果“i”、“ip”、“iph”、“ipho”、“iphon”、“iphone”、“p”、“ph”、“pho”等进行筛选,获得的第一候选词条包括“ip”、“phone”和“iphone”。
S203,依据所述至少两个英文字符,获得基于第二语言的第二候选词条。
具体的,在接收到输入的至少两个英文字符后,依据至少两个英文字符,获得基于第二语言的第二候选词条,其中,所述基于第二语言的第二候选词条为假名词条,或者,所述基于第二语言的第二候选词条为汉字词条。
举例说明,依据至少两个英文字符,可以利用从左向右正向匹配算法对至少两个英文字符进行切分处理,将切分结果作为基于第二语言的第二候选词条,并记录下每个第二候选词条的位置信息,例如,切分结果为sisi+1…sj,则第二候选词条的位置信息是[i,j],下面以至少两个英文字符串s=s1…sn为例,n为大于或者等于2的整数,对依据至少两个英文字符,获得每个第二候选词条的方法进行具体说明:
以第二语言的第二候选词条为假名词条为例,在预设的假名字符与英文字符串的对应关系中,查找一个假名字符,该假名字符需要满足以下条件:假名字符对应的英文字符串为输入的至少两个英文字符s=s1…sn的前缀、且该前缀为至少两个英文字符s=s1…sn的所有前缀中字符长度最大的前缀,其中,i为大于或者等于1且小于或者等于n的整数。sisi+1…sn表示从英文字符si开始到英文字符sn结束的字符串。
若查找到满足上述条件的假名字符,则记录下查找到的假名字符,以及假名字符的位置信息[i,j],该位置信息指的是假名字符对应的英文字符串sisi+1…sj在至少两个英文字符串s=s1…sn中的位置信息,其中,j为大于或等于1且小于或等于n的整数。
若没有查找到满足上述条件的假名字符,则令i=i+1,并在预设的假名字符与英文字符串的对应关系中,按照上述方法继续查找假名字符,直到j=n时停止查找。
从而,最后可以查找至少一个假名字符,并获得其中每个假名字符的位置信息,位置信息就相当于对输入的至少两个英文字符进行切分处理。例如,如图3所示,利用从左向右正向匹配算法对英文字符“iphone”进行切分处理,获得基于第二语言的第二候选词条“い”、“ほ”和“ね”。
S204,依据所述第一候选词条和所述第二候选词条,获得第三候选词条。
具体的,依据S202中获得的基于第一语言的第一候选词条,获得第一候选词条在输入的至少两个英文字符中的第一位置信息;例如,第一候选词条为cij=lili+1…lj,则第一候选词条在输入的至少两个英文字符l1l2…ln的第一位置信息是[i,j]。另外,S203中已经记录下切分结果的位置信息,因此可以直接获得所述第二候选词条对应的英文字符串在输入的至少两个英文字符中的第二位置信息。依据所述基于第一语言的第一候选词条、所述第一位置信息、所述基于第二语言的第二候选词条和所述第二位置信息,获得所述第三候选词条。
举例说明,依据所述基于第一语言的第一候选词条、所述第一位置信息、所述基于第二语言的第二候选词条和所述第二位置信息,获得所述第三候选词条的方法可以是:
首先,由于第一候选词条只是可能的候选词条,例如第一候选词条可能是一个英文单词,也可能不是一个英文单词,因此,需要利用输入法词典对第一候选词条进行筛选,筛选方法可以是:依据第一候选词条在基于第一语言的输入法词典中进行匹配,若第一候选词条在输入法词典中有对应的基于第一语言的词条,则记录下该词条,反之,若第一候选词条在输入法词典中没有对应的词条,则去除该第一候选词条,从而可以获得匹配出的至少一个英文单词。
然后,若基于第二语言的第二候选词条为汉字词条,则可以不进行第二候选词条的进一步处理;若基于第二语言的第二候选词条为假名词条,则需要依据第二候选词条在基于第二语言的输入法词典中进行匹配,如果有对应的词条,则记录下该词条,反之,若第二候选词条在输入法词典中没有对应的词条,则去除该第二候选词条,从而可以获得匹配出的至少一个假名词条或者至少一个汉字词条。
最后,依据利用第一候选词条匹配出的词条、利用第二候选词条匹配出的词条、第一候选词条的位置信息和第二候选词条的位置信息,可以将第一候选词条和/或第二候选词条进行组合,以获得至少一个第三候选词条。获得至少一个第三候选词条后,可以在输入法词典中获得利用第一候选词条匹配出的词条的权重值,以及利用第二候选词条匹配出的词条的权重值;然后依据词条的权重值获得每个第三候选词条的权重值,例如,可以依据第三候选词条中至少一个词条的权重值的乘积,获得第三候选词条的权重值。然后依据权重值由大到小的顺序对第三候选词条进行排序,以获得排序结果,并将排序结果在显示框中进行显示,以实现将第三候选词条提供给用户,供用户进行选择。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图4,其为本发明实施例所提供的输入系统的功能方块图。如图所示,该系统包括:
输入单元401,用于接收输入的至少两个英文字符;
词条处理单元402,用于依据所述至少两个英文字符,获得基于第一语言的第一候选词条;依据所述至少两个英文字符,获得基于第二语言的第二候选词条;依据所述第一候选词条和所述第二候选词条,获得第三候选词条。
其中,所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为假名词条;或者,所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为汉字词条。
其中,所述词条处理单元402在依据所述至少两个英文字符,获得基于第一语言的第一候选词条时,具体用于:
对所述至少两个英文字符进行切分处理,以获得切分结果;
获得所述切分结果的概率信息,所述概率信息指示所述切分结果是基于第一语言的候选词条的概率;
将大于预设的概率阈值的概率信息所对应的切分结果作为所述基于第一语言的第一候选词条。
其中,所述基于第一语言的第一候选词条为英文词条,所述词条处理单元402在获得所述切分结果的概率信息时,具体用于:
利用如下公式获得所述切分结果的概率信息P(E|c):
P(E|c)=P(E)P(c|E)/(P(J)|P(c|J)+P(E)P(c|E))
其中,P(E)为切分结果c是英文单词的先验概率,P(c|E)为英文词汇中出现切分结果c的条件概率,P(J)为切分结果c是假名字符的先验概率,P(c|J)为假名字符对应的英文字符串中出现切分结果c的条件概率。
其中,所述词条处理单元402在依据所述第一候选词条和所述第二候选词条,获得第三候选词条时,具体用于:
获得所述第一候选词条在输入的至少两个英文字符中的第一位置信息;
获得所述第二候选词条对应的英文字符串在输入的至少两个英文字符中的第二位置信息;
依据所述基于第一语言的第一候选词条、所述第一位置信息、所述基于第二语言的第二候选词条和所述第二位置信息,获得所述第三候选词条。
由于本实施例中的各单元能够执行图2所示的方法,本实施例未详细描述的部分,可参考对图2的相关说明。
由以上描述可以看出,本发明实施例所提供的方法和系统具备以下优点:
1、当输入英文字符串时,分别获得基于两种语言的候选词条,因此当进行英文和日文混合输入或者英文和中文混合输入时,不会优先选择一种语言的候选词条,因此不会丢失候选词条,可以获得有效地候选词条,从而可以提高显示框中显示的候选词条的准确性。
2、现有技术中,若输入的英文字符串存在多种切分结果,将依据每种切分结果都获得对应的候选词条,使得候选词条的数量庞大,且显示框中显示的候选词条的顺序是依据人工调权获得的,显示框中每页显示的候选词条的数量有限,因此,不能及时获得有效地候选词条。本发明实施例中,可以利用概率阈值,将概率较低的候选词条筛选掉,从而可以在一定程度上减少候选词条的后续处理量。
在本发明所提供的技术方案中,应该理解到,所披露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分不到多个网络单元上,可以依据实际的需求选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:通用串行总线(Universal Serial Bus,USB)闪存驱动器、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种输入方法,其特征在于,所述方法包括:
接收输入的至少两个英文字符;
依据所述至少两个英文字符,获得基于第一语言的第一候选词条;
依据所述至少两个英文字符,获得基于第二语言的第二候选词条;
依据所述第一候选词条和所述第二候选词条,获得第三候选词条。
2.根据权利要求1所述的方法,其特征在于,
所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为假名词条;或者,
所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为汉字词条。
3.根据权利要求1所述的方法,其特征在于,所述依据所述至少两个英文字符,获得基于第一语言的第一候选词条,包括:
对所述至少两个英文字符进行切分处理,以获得切分结果;
获得所述切分结果的概率信息,所述概率信息指示所述切分结果是基于第一语言的候选词条的概率;
将大于预设的概率阈值的概率信息所对应的切分结果作为所述基于第一语言的第一候选词条。
4.根据权利要求3所述的方法,其特征在于,所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为假名词条,所述获得所述切分结果的概率信息,包括:
利用如下公式获得所述切分结果的概率信息P(E|c):
P(E|c)=P(E)P(c|E)/(P(J)|P(c|J)+P(E)P(c|E))
其中,P(E)为切分结果c是英文单词的先验概率,P(c|E)为英文词汇中出现切分结果c的条件概率,P(J)为切分结果c是假名字符的先验概率,P(c|J)为假名字符对应的英文字符串中出现切分结果c的条件概率。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述依据所述第一候选词条和所述第二候选词条,获得第三候选词条,包括:
获得所述第一候选词条在输入的至少两个英文字符中的第一位置信息;
获得所述第二候选词条对应的英文字符串在输入的至少两个英文字符中的第二位置信息;
依据所述基于第一语言的第一候选词条、所述第一位置信息、所述基于第二语言的第二候选词条和所述第二位置信息,获得所述第三候选词条。
6.一种输入系统,其特征在于,所述系统包括:
输入单元,用于接收输入的至少两个英文字符;
词条处理单元,用于依据所述至少两个英文字符,获得基于第一语言的第一候选词条;依据所述至少两个英文字符,获得基于第二语言的第二候选词条;依据所述第一候选词条和所述第二候选词条,获得第三候选词条。
7.根据权利要求6所述的系统,其特征在于,
所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为假名词条;或者,
所述基于第一语言的第一候选词条为英文词条,所述基于第二语言的第二候选词条为汉字词条。
8.根据权利要求6所述的系统,其特征在于,所述词条处理单元具体用于:
对所述至少两个英文字符进行切分处理,以获得切分结果;
获得所述切分结果的概率信息,所述概率信息指示所述切分结果是基于第一语言的候选词条的概率;
将大于预设的概率阈值的概率信息所对应的切分结果作为所述基于第一语言的第一候选词条。
9.根据权利要求8所述的系统,其特征在于,所述基于第一语言的第一候选词条为英文词条,所述词条处理单元具体用于:
利用如下公式获得所述切分结果的概率信息P(E|c):
P(E|c)=P(E)P(c|E)/(P(J)|P(c|J)+P(E)P(c|E))
其中,P(E)为切分结果c是英文单词的先验概率,P(c|E)为英文词汇中出现切分结果c的条件概率,P(J)为切分结果c是假名字符的先验概率,P(c|J)为假名字符对应的英文字符串中出现切分结果c的条件概率。
10.根据权利要求6至9中任一项所述的系统,其特征在于,所述词条处理单元具体用于:
获得所述第一候选词条在输入的至少两个英文字符中的第一位置信息;
获得所述第二候选词条对应的英文字符串在输入的至少两个英文字符中的第二位置信息;
依据所述基于第一语言的第一候选词条、所述第一位置信息、所述基于第二语言的第二候选词条和所述第二位置信息,获得所述第三候选词条。
CN201410104464.7A 2014-03-19 2014-03-19 一种输入方法及系统 Pending CN103885608A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410104464.7A CN103885608A (zh) 2014-03-19 2014-03-19 一种输入方法及系统
JP2014264836A JP6258191B2 (ja) 2014-03-19 2014-12-26 入力方法及びシステム
EP14200675.8A EP2921935A1 (en) 2014-03-19 2014-12-30 Input method and system
US14/588,030 US10019436B2 (en) 2014-03-19 2014-12-31 Input method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410104464.7A CN103885608A (zh) 2014-03-19 2014-03-19 一种输入方法及系统

Publications (1)

Publication Number Publication Date
CN103885608A true CN103885608A (zh) 2014-06-25

Family

ID=50954541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410104464.7A Pending CN103885608A (zh) 2014-03-19 2014-03-19 一种输入方法及系统

Country Status (4)

Country Link
US (1) US10019436B2 (zh)
EP (1) EP2921935A1 (zh)
JP (1) JP6258191B2 (zh)
CN (1) CN103885608A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766238A (zh) * 2017-09-27 2018-03-06 北京金山安全软件有限公司 一种软件测试方法、装置、设备及计算机可读存储介质
CN111310481A (zh) * 2020-01-19 2020-06-19 百度在线网络技术(北京)有限公司 语音翻译方法、装置、计算机设备和存储介质

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN109901725B (zh) * 2017-12-07 2022-05-06 北京搜狗科技发展有限公司 一种拼音串切分方法和装置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2806452B2 (ja) * 1996-12-19 1998-09-30 オムロン株式会社 かな漢字変換装置および方法、並びに記録媒体
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US7403888B1 (en) 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
CN101286094A (zh) 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
CN101587471A (zh) 2008-05-19 2009-11-25 黄晓凤 一种多语言混合输入的方法
US20140379680A1 (en) * 2010-09-21 2014-12-25 Qiliang Chen Generating search query suggestions
CN104011712B (zh) * 2011-06-24 2018-04-24 谷歌有限责任公司 对跨语言查询建议的查询翻译进行评价
JP2013205171A (ja) * 2012-03-28 2013-10-07 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20150106702A1 (en) * 2012-06-29 2015-04-16 Microsoft Corporation Cross-Lingual Input Method Editor
US20150169971A1 (en) * 2012-09-07 2015-06-18 Mark Joseph Cummins Character recognition using search results
CN103970278B (zh) * 2013-01-25 2017-02-08 胡竞韬 一种圆形触感键盘的输入方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766238A (zh) * 2017-09-27 2018-03-06 北京金山安全软件有限公司 一种软件测试方法、装置、设备及计算机可读存储介质
CN107766238B (zh) * 2017-09-27 2021-04-09 北京金山安全软件有限公司 一种软件测试方法、装置、设备及计算机可读存储介质
CN111310481A (zh) * 2020-01-19 2020-06-19 百度在线网络技术(北京)有限公司 语音翻译方法、装置、计算机设备和存储介质
CN111310481B (zh) * 2020-01-19 2021-05-18 百度在线网络技术(北京)有限公司 语音翻译方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
EP2921935A1 (en) 2015-09-23
JP2015179497A (ja) 2015-10-08
JP6258191B2 (ja) 2018-01-10
US20150269137A1 (en) 2015-09-24
US10019436B2 (en) 2018-07-10

Similar Documents

Publication Publication Date Title
CN103885608A (zh) 一种输入方法及系统
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
US10210243B2 (en) Method and system for enhanced query term suggestion
KR101465770B1 (ko) 단어 확률 결정
US20160048482A1 (en) Method for automatically partitioning an article into various chapters and sections
JP6122800B2 (ja) 電子機器、文字列表示方法、および文字列表示プログラム
WO2009026850A1 (en) Domain dictionary creation
CN110032734B (zh) 近义词扩展及生成对抗网络模型训练方法和装置
CN108304377B (zh) 一种长尾词的提取方法及相关装置
CN103870553A (zh) 一种输入资源推送方法及系统
CN104156454A (zh) 搜索词的纠错方法和装置
CN110377750B (zh) 评论生成及评论生成模型训练方法、装置及存储介质
CN110610180A (zh) 错别字词识别集的生成方法、装置、设备及存储介质
CN104423623A (zh) 一种选词处理方法及电子设备
CN108664141B (zh) 具有文档上下文自学习功能的输入法
CN107909054B (zh) 图片文本的相似度评价方法及装置
CN104102704A (zh) 系统控件展示方法和装置
CN105159927A (zh) 目标文本主题词的选取方法、装置及终端
CN112148135A (zh) 输入法处理方法、装置和电子设备
CN106709294B (zh) 一种用户认证方法和装置
CN103051971A (zh) 一种输入法及数字电视终端
CN109727591B (zh) 一种语音搜索的方法及装置
CN108304540B (zh) 一种文本数据识别方法、装置及相关设备
CN111078989A (zh) 一种应用程序的推荐方法、装置、及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140625