CN104461042B - 基于退回键自动进行纠错的日文输入方法及系统 - Google Patents

基于退回键自动进行纠错的日文输入方法及系统 Download PDF

Info

Publication number
CN104461042B
CN104461042B CN201310421823.7A CN201310421823A CN104461042B CN 104461042 B CN104461042 B CN 104461042B CN 201310421823 A CN201310421823 A CN 201310421823A CN 104461042 B CN104461042 B CN 104461042B
Authority
CN
China
Prior art keywords
japanese
user
ideogram
correction
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310421823.7A
Other languages
English (en)
Other versions
CN104461042A (zh
Inventor
吴先超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310421823.7A priority Critical patent/CN104461042B/zh
Priority to JP2014187560A priority patent/JP6204894B2/ja
Publication of CN104461042A publication Critical patent/CN104461042A/zh
Application granted granted Critical
Publication of CN104461042B publication Critical patent/CN104461042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods

Abstract

本发明提出一种基于退回键自动进行纠错的日文输入方法及系统。其中,方法包括以下步骤:接收用户输入的多个日文假名;当用户触发退回键时,根据多个日文假名之间的关系对多个日文假名进行纠正,以获得纠正结果;通过多元假名语言模型并利用纠正结果和多个日文假名在日文语料中出现的频次分别获得纠正结果与多个日文假名的正确率;以及当纠正结果的正确率大于多个日文假名的正确率时,将纠正结果和多个日文假名反馈给用户,以供用户选择。根据本发明实施例的日文输入方法,通过退回键触发对多个日文假名的纠正,并将纠正结果同该多个日文假名反馈给用户,从而节省了再次进行输入纠正的时间,方便了用户的使用,同时提高了用户体验。

Description

基于退回键自动进行纠错的日文输入方法及系统
技术领域
本发明涉及输入法技术领域,特别涉及一种基于退回键自动进行纠错的日文输入方法及系统。
背景技术
backspace键作为退回键一般用于删减所输入的内容。当用户按下backspace键时候,说明用户认为其输入的内容出现了问题。这个时候,正是对用户所输入的内容进行纠正,并将纠正结果反馈给用户的好机会。
现有的日文输入方式是在用户完成输入之后,通过空格键等进行转换,以获得用户所希望的假名或汉字。当输入过程出现问题需要修改时,通过删除键或退回键等进行删除,并重新输入以获得用户所要得到的假名或汉字。
因此可以看出现有技术对修正的环节比较复杂,特别是当多个日文假名中中间日文假名出现错误时,用户需要从后删除到该错误日文假名,并重新输入后续日文假名,目前这种方式严重影响了用户的输入速度和用户体验。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为此,本发明的一个目的在于提出一种基于退回键自动进行纠错的日文输入方法。所述日文输入方法具有减少用户的输入时间和次数,并提高用户体验的优点。
本发明的另一目的在于提出一种基于退回键自动进行纠错的日文输入系统。
为达到上述目的,本发明一方面的实施例提出一种基于退回键自动进行纠错的日文输入方法,包括以下步骤:接收用户输入的多个日文假名;当用户触发退回键时,根据所述多个日文假名之间的关系对所述多个日文假名进行纠正,以获得纠正结果;通过多元假名语言模型并利用所述纠正结果和所述多个日文假名在日文语料中出现的频次分别获得所述纠正结果与所述多个日文假名的正确率;以及当所述纠正结果的正确率大于所述多个日文假名的正确率时,将所述纠正结果和所述多个日文假名反馈给用户,以供用户选择。
根据本发明实施例的日文输入方法,通过退回键触发对多个日文假名的纠正,并将纠正结果同该多个日文假名反馈给用户,从而节省了再次进行输入纠正的时间,方便了用户的使用,同时提高了用户体验。
在本发明的一个实施例中,还包括:当用户选择所述纠正结果和所述多个日文假名中的一个时,将对应的日文假名或汉字显示在屏幕中。
在本发明的一个实施例中,还包括:当用户再次触发所述退回键时,从所述多个日文假名中删除最后一个日文假名或删除对所述多个日文假名进行转换所获得的多个汉字的最后一个汉字,并对剩余日文假名或汉字进行纠正;根据纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字在日文语料中出现的频次分别获得纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字的正确率;以及当纠正后的所述剩余日文假名或汉字的正确率大于所述剩余日文假名或汉字的正确率时,将纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字反馈给用户,以供用户选择。
在本发明的一个实施例中,还包括:当用户选择纠正结果的概率大于阈值时,将所述纠正结果发送到云端;以及当其他用户输入与所述纠正结果相关的错误假名时,将所述纠正结果添加到候选列表中,以供用户选择。
在本发明的一个实施例中,对所述多个日文假名的纠正方式包括增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置。
本发明另一方面的实施例提出了一种基于退回键自动进行纠错的日文输入系统,包括:接收模块,用于接收用户输入的多个日文假名;第一纠正模块,用于当用户触发退回键时,根据所述多个日文假名之间的关系对所述多个日文假名进行纠正,以获得纠正结果;第一获取模块,用于通过多元假名语言模型并利用所述纠正结果和所述多个日文假名在日文语料中出现的频次分别获得所述纠正结果与所述多个日文假名的正确率;以及第一反馈模块,用于当所述纠正结果的正确率大于所述多个日文假名的正确率时,将所述纠正结果和所述多个日文假名反馈给用户,以供用户选择。
根据本发明实施例的日文输入方法,通过退回键触发对多个日文假名的纠正,并将纠正结果同该多个日文假名反馈给用户,从而节省了再次进行输入纠正的时间,方便了用户的使用,同时提高了用户体验。
在本发明的一个实施例中,所述第一反馈模块还用于当用户选择所述纠正结果和所述多个日文假名中的一个时,将对应的日文假名或汉字显示在屏幕中。
在本发明的一个实施例中,还包括:第二纠正模块,用于当用户再次触发所述退回键时,从所述多个日文假名中删除最后一个日文假名或删除对所述多个日文假名进行转换所获得的多个汉字的最后一个汉字,并对剩余日文假名或汉字进行纠正;第二获取模块,用于根据纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字在日文语料中出现的频次分别获得纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字的正确率;以及第二反馈模块,用于当纠正后的所述剩余日文假名或汉字的正确率大于所述剩余日文假名或汉字的正确率时,将纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字反馈给用户,以供用户选择。
在本发明的一个实施例中,还包括:添加模块,用于将所述纠正结果的选择概率大于阈值所述纠正结果发送到云端,当其他用户输入与所述纠正结果相关的错误假名时,将所述纠正结果添加到候选列表中,以供用户选择。
在本发明的一个实施例中,对所述多个日文假名的纠正方式包括增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于退回键自动进行纠错的日文输入方法的流程图;
图2为根据本发明一个实施例的对用户输入的假名“あさた”进行纠正的示意图;
图3为根据本发明一个实施例的对用户输入的假名“あさって”进行纠正的示意图;
图4为根据本发明一个实施例的对用户输入的假名字符串进行纠正的示意图;
图5为根据本发明一个实施例的对用户输入的假名字符串进行纠正以获得纠正模型的流程图;
图6为根据本发明一个实施例的对用户输入的假名字符串“あさた”、“あれ”、“あさた”进行纠正以获得纠正模型的流程图;
图7为根据本发明一个实施例的移动终端中日文输入法示意图;
图8为根据本发明一个实施例的基于退回键自动进行纠错的日文输入系统的结构框图;以及
图9为根据本发明另一个实施例的基于退回键自动进行纠错的日文输入系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
图1为本发明实施例的基于退回键自动进行纠错的日文输入方法的流程图。如图1所示,根据本发明实施例的基于退回键自动进行纠错的日文输入方法,包括以下步骤:
步骤S101,接收用户输入的多个日文假名。
步骤S102,当用户触发退回键时,根据多个日文假名之间的关系对多个日文假名进行纠正,以获得纠正结果。对多个日文假名的纠正方式包括增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置。
步骤S103,通过多元假名语言模型并利用纠正结果和多个日文假名在日文语料中出现的频次分别获得纠正结果与多个日文假名的正确率。
步骤S104,当纠正结果的正确率大于多个日文假名的正确率时,将纠正结果和多个日文假名反馈给用户,以供用户选择。
在本发明的一个实施例中,当用户选择纠正结果和多个日文假名中的一个时,将对应的日文假名或汉字显示在屏幕中。
在本发明的一个实施例中,当用户再次触发退回键时,从多个日文假名中删除最后一个日文假名或删除对多个日文假名进行转换所获得的多个汉字的最后一个汉字,并对剩余日文假名或汉字进行纠正。然后根据纠正后的剩余日文假名或汉字和剩余日文假名或汉字在日文语料中出现的频次分别获得纠正后的剩余日文假名或汉字和剩余日文假名或汉字的正确率。当纠正后的剩余日文假名或汉字的正确率大于剩余日文假名或汉字的正确率时,将纠正后的剩余日文假名或汉字和剩余日文假名或汉字反馈给用户,以供用户选择。
在本发明的一个实施例中,当用户选择纠正结果的概率大于阈值时,将纠正结果发送到云端,以便当其他用户输入与纠正结果相关的错误假名时,将纠正结果添加到候选列表中,以供用户选择。
图2为根据本发明一个实施例的对用户输入的假名“あさた”进行纠正的示意图。如图2所示,假设用户输入了日语假名串“あさた”,并且按下了退回键,即backspace键时,对用户输入的假名“あさた”进行自动纠正,通过纠正多获得的纠正结果为“あした”,则该纠正结果显示在用户的输入界面,例如backspace键的上方。此时,用户有两种选择,一种是选择纠正后所获得的纠正结果。此时,将“あさた”替换为“あした”并且在屏幕下方展示“あした”所对应的汉字候选列表,供用户选择。另一种是没有选择纠正结果,而是再次点击了backspace键,从而删除了日文假名“あさた”中的最后一个假名“た”得到日文假名串“あさ”。此时,将对应与日文假名串“あさ”对应的汉字展现给用户,以供选择。
图3为根据本发明一个实施例的对用户输入的假名“あさって”进行纠正的示意图。如图3所示,假设对用户输入的日语假名串“あさって”进行转换所获得的汉字串为“明後日”,当用户按下backspace键时,对汉字串“明後日”进行纠正。其纠正的纠正结果为“明日”,并且纠正结果“明日”出现在“明後日”的上方。同时,“明後日”对应的假名“あさって”也被复原出来。此时,用户有三种选择。
1、当用户选择了假名串“あさって”,此时复原“あさって”为屏幕的当前状态,并且删除已经在屏幕上显示的汉字串“明後日”。同时,“あさって”所对应的汉字展示在候选列表中,供用户重新选择该假名下的其他候选项。
2、当用户选择了汉字的纠正结果“明日”时,“明日”替换原来屏幕上的结果“明後日”。
3、当用户没有选择上述两种结果,而是进行了正常的删除操作即点击backspace键时,获得汉字串“明後”。如果用户继续点击backspace键时,会对汉字串“明後”进行进一步纠正,并将纠正结果显示在“明後”的上方可供用户进一步进行选择。还可以通过backspace键不再继续纠错。根据用户的需求通过输入法的控制界面进行主动控制。默认状态下为继续纠正。
图4为根据本发明一个实施例的对用户输入的假名字符串进行纠正的示意图。如图4所示,当用户触发backspace键时,对用户输入的假名字符串进行纠正,并根据纠正结果展示在用户的输入界面中。对用户输入的假名字符串进行纠正包括:增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置。
下面通过几个例子对本发明中对假名字符串进行纠正个的过程进行说明。
1、当用户输入假名字符串“あさた”的时候,将假名字符串“あさた”修改为“あした”,即把假名字符串中的假名“さ”修改为“し”。
2、当用户输入假名字符串“あたした”的时候,将假名字符串“あたした”修改为“あした”,即删除假名字符串中的假名“た”。
3、当用户输入假名字符串“あた”的时候,增加一个假名,例如,“し”或“な”等,将假名字符串“あた”修改为“あした(明天)”或“あなた(您,你)”等。
4、当用户输入假名字符串“あたな”的时候,变换后面两个假名的位置,例如,改变假名“た”和“な”的位置,将假名字符串“あたな”修改为“あなた(您,你)”。
图5为根据本发明一个实施例的对用户输入的假名字符串进行纠正以获得纠正模型的流程图。如图5所示,根据上述纠正方式,即增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置以获得纠正后的多个假名组合,然后根据纠正前后的假名组合,并利用EM算法的词对齐模型和短语的翻译模型获得对用户输入假名字符串的纠正模型,其中,该纠正模型包括纠正前的假名字符串、纠正后的假名字符串和纠正结果的概率。对用户输入的假名字符串“あさた”、“あれ”、“あさた”和其对应纠正后假名字符串建立纠正模型的流程如图6所示。
在本发明的一个实施例中,通过建立纠正前的假名串和纠正后的假名串之间的映射关系,以获得修改模型。根据该修改模型实现对用户输入的假名字符串进行纠正处理。其中,纠正模型的数据可以来自用户log文件,即用户的按键后假名和最终选择的假名或人工构建的训练集合。
在本发明的一个实施例中,假名语言模型的获取方法为,首先进行日文分词、词性解析和假名注音,以得到一个句子中各个汉字的假名读音,其中,日文分词、词性解析和假名注音为现有技术在此不再具体说明。然后,按照类似普通基于汉字或者词的语言模型的训练方法,来得到最终的假名语言模型。下面通过具体例子进行说明。
对于句子:“…た講演後の質疑応答で、環太平洋連携協定(TPP)交渉参加の方針決定について…”,我们对该文字执行分词和词性解析,以得到如表1所示的解析结果。
表1
从表1中可以看出,对上述句子而言其假名字符串是“タ”、“コウエン”、“ゴ”、“ノ”、“シツギ”、“オウトウ”、“デ”、“、”、“カンタイヘイヨウ”、“レンケイ”、“キョウテイ”等。根据这些假名字符串采用训练普通语言模型的方法训练假名的语言模型。
在本发明的一个实施例中,n元语言模型,即n-gram语言模型(n元语言模型)中当前词出现的概率仅和其左边的n-1个词有关系。当n取1、2、3时,n-gram模型分别称为unigram(一元语言模型)、bigram(二元语言模型)和trigram语言模型(三元语言模型)。n越大,语言模型越准确,计算也越复杂,计算量也越大。最常用的是bigram,其次是unigram和trigram,n取大于等于4的情况较少。当n-gram语言模型用到中文网页的时候,得到汉语n元语言模型;当n-gram语言模型用到英文网页的时候,得到英语n元语言模型。例如当n取值为2的时候,当前词的出现的概率仅和其前一个词有关系。例如,对于如下句子,S=张三董事长发表了四个优先重要指示的讲话。
(1)在2元语言模型下,该句子的概率(衡量该句子的正确性的度量)为:
P(S)=P(张三|<s>)P(董事长|张三)P(发表|董事长)P(了|发表)P(四个|了)P(优先|四个)P(重要|优先)P(指示|重要)P(的|指示)P(讲话|的)P(。|讲话)P(</s>|。)
其中,<s>和</s>,是两个人工构造的词,分别表示句子的开始和结尾(其目的是判断“张三”作为句子开头词的概率,和“。”句号作为句子接尾词的概率)。
(2)在3元语言模型下,该句子的概率为:
P(S)=P(张三|<s>)P(董事长|<s>,张三)P(发表|张三,董事长)P(了|董事长,发表)P(四个|发表,了)P(优先|了,三个)P(重要|四个,优先)P(指示|优先,重要)P(的|重要,指示)P(讲话|指示,的)P(。|的,讲话)P(</s>|讲话。)
在2元模型中一个概率的计算方法为:
P(董事长|张三)=count(张三董事长)/count(张三),其中,分子是“张三董事长”在训练语料(例如大规模网络语料)中出现的频次,分母是“张三”在训练语料中出现的频次。
相应地,3元模型中一个概率的计算公式为:
P(发表|张三,董事长)=count(张三董事长发表)/count(张三董事长),其中,分子是“张三董事长发表”在训练语料中出现的频次,分母是“张三董事长”在训练语料中出现的频次。
对于上述例子的假名字符串“タ”、“コウエン”、“ゴ”、“ノ”、“シツギ”、“オウトウ”、“デ”、“、”得到如下句子“S=タコウエンゴノシツギオウトウデ、”,在二元假名语言模型下,该句子的正确率为,P(S)=P(タ|<s>)P(コウエン|タ)P(ゴ|コウエン)P(ノ|ゴ)P(シツギ|ノ)P(オウトウ|シツギ)P(デ|オウトウ)P(、|デ)(</s>|、)。
在本发明的一个实施例中,主要是基于若干个假名,利用假名语言模型来判别其正确性,例如,假设要判定是“あした”常用还是“あさた”常用,则在大规模日语语料(例如整个日文网络中的网页)中对“あした”出现的次数和“あさた”出现次数进行统计,并比较“あした”出现的时候的上下文假名信息和“あさた”出现的时候的上下文假名信息。如果count(“あした”)>>count(“あさた”),(>>表示远大于)则我们有理由把用户输入的“あさた”,修改为更合理的更常用的“あした”。
在本发明的一个实施例中,对于上屏后多个日文假名或汉字利用基于汉字和假名的语言模型来判别纠正后和纠正前的正确率。例如,对于句子“…た講演後の質疑応答で、環太平洋連携協定(TPP)交渉参加の方針決定について…”,进行分词、词性解析等处理后得到如表2所示的处理结果:
助動詞,*,*,*,特殊·タ,基本形,た,タ,タ
講演 名詞,サ変接続,*,*,*,*,講演,コウエン,コーエン
名詞,接尾,副詞可能,*,*,*,後,ゴ,ゴ
助詞,連体化,*,*,*,*,の,ノ,ノ
質疑 名詞,サ変接続,*,*,*,*,質疑,シツギ,シツギ
表2
从上述表2中可以看出汉字和假名串类似,因此通过训练n元语言模型,进一步判断当前的上屏后结果的正确率。
图7为根据本发明一个实施例的移动终端中日文输入法示意图。如图7所示,对于九宫格格式的日文输入,当用户按下“あ”不放的时候,会出现该图右边所示的弹出,即“あ”行的其他四个假名分布在“あ“的左上右下四个位置。依次输入あ->し->た的时候,“あした”这个假名被匹配出来,并且其对应的候选被罗列出来。
根据本发明实施例的日文输入方法,通过退回键触发对多个日文假名的纠正,并将纠正结果同该多个日文假名反馈给用户,从而节省了再次进行输入纠正的时间,方便了用户的使用,同时提高了用户体验。
图8为根据本发明一个实施例的基于退回键自动进行纠错的日文输入系统的结构框图。如图8所示,根据本发明实施例的基于退回键自动进行纠错的日文输入系统包括接收模块100、第一纠正模块200、第一获取模块300和第一反馈模块400。
其中,接收模块100用于接收用户输入的多个日文假名。
第一纠正模块200用于当用户触发退回键时,根据多个日文假名之间的关系对多个日文假名进行纠正,以获得纠正结果。
在本发明的一个实施例中,对多个日文假名的纠正方式包括增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置。
第一获取模块300用于通过多元假名语言模型并利用纠正结果和多个日文假名在日文语料中出现的频次分别获得纠正结果与多个日文假名的正确率。
第一反馈模块400用于当纠正结果的正确率大于多个日文假名的正确率时,将纠正结果和多个日文假名反馈给用户,以供用户选择。
在本发明的一个实施例中,第一反馈模块还用于当用户选择纠正结果和多个日文假名中的一个时,将对应的日文假名或汉字显示在屏幕中。
图9为根据本发明另一个实施例的基于退回键自动进行纠错的日文输入系统的结构框图。如图9所示,根据本发明实施例的基于退回键自动进行纠错的日文输入系统还包括第二纠正模块500、第二获取模块600、第二反馈模块700和添加模块800。
其中,第二纠正模块500用于当用户再次触发退回键时,从多个日文假名中删除最后一个日文假名或删除对多个日文假名进行转换所获得的多个汉字的最后一个汉字,并对剩余日文假名或汉字进行纠正;
第二获取模块600用于根据纠正后的剩余日文假名或汉字和剩余日文假名或汉字在日文语料中出现的频次分别获得纠正后的剩余日文假名或汉字和剩余日文假名或汉字的正确率;以及
第二反馈模块700用于当纠正后的剩余日文假名或汉字的正确率大于剩余日文假名或汉字的正确率时,将纠正后的剩余日文假名或汉字和剩余日文假名或汉字反馈给用户,以供用户选择。
添加模块800用于将纠正结果的选择概率大于阈值纠正结果发送到云端,当其他用户输入与纠正结果相关的错误假名时,将纠正结果添加到候选列表中,以供用户选择。
图3为根据本发明一个实施例的对用户输入的假名“あさって”进行纠正的示意图。如图3所示,假设接收模块100接收到用户输入的多个日语假名,并进行转换所获得的多个汉字为“明後日”,当用户按下backspace键时,第一纠正模块200对多个汉字“明後日”进行纠正。同时由第一获取模块300获得纠正结果“明日”与多个汉字“明後日”的正确率。当纠正结果“明日”的正确率大于多个汉字“明後日”的正确率时,将纠正结果“明日”展现在“明後日”的上方。同时,“明後日”对应的假名“あさって”(即用户为了获得“明後日”而输入的假名串)也被复原出来。此时,用户有三种选择。
1、当用户选择了假名串“あさって”,此时复原“あさって”为屏幕的当前状态,并且删除已经在屏幕上显示的汉字串“明後日”。同时,“あさって”所对应的汉字展示在候选列表中,供用户重新选择该假名下的其他候选项。
2、当用户选择了汉字的纠正结果“明日”时,“明日”替换原来的屏幕上的结果“明後日”。
3、当用户没有选择上述两种结果,而是进行了正常的删除操作即点击了backspace键时,第二纠正模块500从多个汉字“明後日”中删除最后一个汉字“日”,以获得“明後”。如果用户继续点击backspace键时,第二纠正模块500会对多个汉字“明後”进行进一步纠正,并通过第二获取模块600获取其纠正前后的正确率。当纠正结果满足条件时,将纠正结果显示在“明後”的上方可供用户选择。除此之外,用户还可以通过backspace键不再继续纠错。根据用户的需求通过输入法的控制界面进行主动控制。系统统计用户选择纠正结果的概率,当用户选择纠正结果的概率大于阈值时,添加模块800将纠正结果发动到云端,以便其他用户输入与纠正结果相关的错误假名时,将纠正结果添加到候选列表中,以供用户选择。
图5为根据本发明一个实施例的对用户输入的假名字符串进行纠正以获得纠正模型的流程图。如图5所示,根据上述纠正方式,即增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置以获得纠正后的多个假名组合,然后根据纠正前后的假名组合,并利用EM算法的词对齐模型和短语的翻译模型获得对用户输入假名字符串的纠正模型,其中,该纠正模型包括纠正前的假名字符串、纠正后的假名字符串和纠正结果的概率。对用户输入的假名字符串“あさた”、“あれ”、“あさた”和其对应纠正后假名字符串建立纠正模型的流程如图6所示。
根据本发明实施例的日文输入系统,通过退回键触发对多个日文假名的纠正,并将纠正结果同该多个日文假名反馈给用户,从而节省了再次进行输入纠正的时间,方便了用户的使用,同时提高了用户体验。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于退回键自动进行纠错的日文输入方法,其特征在于,包括以下步骤:
接收用户输入的多个日文假名;
当用户触发退回键时,根据所述多个日文假名之间的关系对所述多个日文假名进行纠正,以获得纠正结果;
通过多元假名语言模型并利用所述纠正结果和所述多个日文假名在日文语料中出现的频次分别获得所述纠正结果与所述多个日文假名的正确率;以及
当所述纠正结果的正确率大于所述多个日文假名的正确率时,将所述纠正结果和所述多个日文假名反馈给用户,以供用户选择;
其中,当用户再次触发退回键时,从多个日文假名中删除最后一个日文假名或删除对多个日文假名进行转换所获得的多个汉字的最后一个汉字,并对剩余日文假名或汉字进行纠正,以获得纠正结果;
根据纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字在日文语料中出现的频次分别获得纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字的正确率;以及
当纠正后的所述剩余日文假名或汉字的正确率大于所述剩余日文假名或汉字的正确率时,将纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字反馈给用户,以供用户选择。
2.根据权利要求1所述的基于退回键自动进行纠错的日文输入方法,其特征在于,还包括:
当用户选择所述纠正结果和所述多个日文假名中的一个时,将对应的日文假名或汉字显示在屏幕中。
3.根据权利要求1所述的基于退回键自动进行纠错的日文输入方法,其特征在于,还包括:
当用户选择纠正结果的概率大于阈值时,将所述纠正结果发送到云端;以及当其他用户输入与所述纠正结果相关的错误假名时,将所述纠正结果添加到候选列表中,以供用户选择。
4.根据权利要求1所述的基于退回键自动进行纠错的日文输入方法,其特征在于,对所述多个日文假名的纠正方式包括增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置。
5.一种基于退回键自动进行纠错的日文输入系统,其特征在于,包括:
接收模块,用于接收用户输入的多个日文假名;
第一纠正模块,用于当用户触发退回键时,根据所述多个日文假名之间的关系对所述多个日文假名进行纠正,以获得纠正结果;
第一获取模块,用于通过多元假名语言模型并利用所述纠正结果和所述多个日文假名在日文语料中出现的频次分别获得所述纠正结果与所述多个日文假名的正确率;
第一反馈模块,用于当所述纠正结果的正确率大于所述多个日文假名的正确率时,将所述纠正结果和所述多个日文假名反馈给用户,以供用户选择;
第二纠正模块,用于当用户再次触发所述退回键时,从所述多个日文假名中删除最后一个日文假名或删除对所述多个日文假名进行转换所获得的多个汉字的最后一个汉字,并对剩余日文假名或汉字进行纠正;
第二获取模块,用于根据纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字在日文语料中出现的频次分别获得纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字的正确率;以及
第二反馈模块,用于当纠正后的所述剩余日文假名或汉字的正确率大于所述剩余日文假名或汉字的正确率时,将纠正后的所述剩余日文假名或汉字和所述剩余日文假名或汉字反馈给用户,以供用户选择。
6.根据权利要求5所述的基于退回键自动进行纠错的日文输入系统,其特征在于,所述第一反馈模块还用于当用户选择所述纠正结果和所述多个日文假名中的一个时,将对应的日文假名或汉字显示在屏幕中。
7.根据权利要求5所述的基于退回键自动进行纠错的日文输入系统,其特征在于,还包括:
添加模块,用于将所述纠正结果的选择概率大于阈值所述纠正结果发送到云端,当其他用户输入与所述纠正结果相关的错误假名时,将所述纠正结果添加到候选列表中,以供用户选择。
8.根据权利要求5所述的基于退回键自动进行纠错的日文输入系统,其特征在于,对所述多个日文假名的纠正方式包括增加一个假名、删除一个假名、修改一个假名或变更假名之间的位置。
CN201310421823.7A 2013-09-16 2013-09-16 基于退回键自动进行纠错的日文输入方法及系统 Active CN104461042B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310421823.7A CN104461042B (zh) 2013-09-16 2013-09-16 基于退回键自动进行纠错的日文输入方法及系统
JP2014187560A JP6204894B2 (ja) 2013-09-16 2014-09-16 バックスペースキーに基づいて入力ミスを自動的に修正する日本語入力方法、入力システム、コンピュータプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310421823.7A CN104461042B (zh) 2013-09-16 2013-09-16 基于退回键自动进行纠错的日文输入方法及系统

Publications (2)

Publication Number Publication Date
CN104461042A CN104461042A (zh) 2015-03-25
CN104461042B true CN104461042B (zh) 2017-12-26

Family

ID=52815758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310421823.7A Active CN104461042B (zh) 2013-09-16 2013-09-16 基于退回键自动进行纠错的日文输入方法及系统

Country Status (2)

Country Link
JP (1) JP6204894B2 (zh)
CN (1) CN104461042B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105334952B (zh) * 2014-07-11 2018-12-18 北京搜狗科技发展有限公司 一种文本信息的输入方法和装置
CN106610730A (zh) * 2015-10-23 2017-05-03 深圳富泰宏精密工业有限公司 电子设备及字元校正方法
CN107688399B (zh) * 2016-08-05 2022-04-12 北京搜狗科技发展有限公司 一种输入方法和装置、一种用于输入的装置
CN112506903B (zh) * 2020-12-02 2024-02-23 苏州龙石信息科技有限公司 采用标本线的数据质量表示方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556596A (zh) * 2007-08-31 2009-10-14 北京搜狗科技发展有限公司 一种输入法系统及智能组词的方法
CN101710262A (zh) * 2009-12-11 2010-05-19 北京搜狗科技发展有限公司 字符纠错方法及装置
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
CN102866826A (zh) * 2012-07-09 2013-01-09 李晶 一种字符输入方法及其装置
CN103135786A (zh) * 2008-04-18 2013-06-05 上海触乐信息科技有限公司 用于向电子设备输入文本的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0650504B2 (ja) * 1987-07-01 1994-06-29 株式会社日立製作所 かな漢字変換装置
JPH05266007A (ja) * 1992-03-17 1993-10-15 Toshiba Corp 文書作成編集装置
JPH07110844A (ja) * 1993-10-13 1995-04-25 Sharp Corp 日本語文書処理装置
JP3003605B2 (ja) * 1996-12-25 2000-01-31 日本電気株式会社 単語修正装置および単語修正方法
JP2006155322A (ja) * 2004-11-30 2006-06-15 Nec Fielding Ltd 入力予測辞書システムおよび入力予測方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556596A (zh) * 2007-08-31 2009-10-14 北京搜狗科技发展有限公司 一种输入法系统及智能组词的方法
CN103135786A (zh) * 2008-04-18 2013-06-05 上海触乐信息科技有限公司 用于向电子设备输入文本的方法
CN101710262A (zh) * 2009-12-11 2010-05-19 北京搜狗科技发展有限公司 字符纠错方法及装置
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
CN102866826A (zh) * 2012-07-09 2013-01-09 李晶 一种字符输入方法及其装置

Also Published As

Publication number Publication date
CN104461042A (zh) 2015-03-25
JP2015057707A (ja) 2015-03-26
JP6204894B2 (ja) 2017-09-27

Similar Documents

Publication Publication Date Title
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
US11113234B2 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
CN102455845B (zh) 一种文字输入方法和装置
US8428934B2 (en) Prose style morphing
DE112013004585B4 (de) Inkrementelle merkmalbasierte Gestentastatur-Dekodierung
CN104166462A (zh) 一种文字的输入方法和系统
CN104461042B (zh) 基于退回键自动进行纠错的日文输入方法及系统
DE112013004769T5 (de) Leerstellenvorhersage für eine Texteingabe
DE112007000855T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Vorsehen eines Rechtschreibprüfungs-Lern-Merkmals
KR102256705B1 (ko) 수정된 용어들을 사용하는 음향 모델 트레이닝
CN110502754B (zh) 文本处理方法和装置
DE112007000727T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Integrieren der Ausgabe der Rechtschreibprüfung in die Ausgabe einer Disambiguierung
EP2807535B1 (en) User data input prediction
DE112007000848T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer optimierten Rechtschreibprüfung während einer Texteingabe durch Vorsehen einer sequentiell angeordneten Reihe von Rechtschreibprüfalgorithmen
CN110413987B (zh) 基于多个预测模型的标点符号预测方法及相关设备
CN112684913B (zh) 信息修正方法、装置及电子设备
JP2015022590A (ja) 文字入力装置、文字入力方法、及び文字入力プログラム
US20180067645A1 (en) System and method for efficient text entry with touch screen
CN101995963B (zh) 词汇自适应中文输入方法
CN107861937B (zh) 对译语料库的更新方法、更新装置以及记录介质
CN103440046B (zh) 日文输入方法及系统
CN113919424A (zh) 文本处理模型的训练、文本处理方法、装置、设备和介质
CN108845682B (zh) 一种输入预测方法及装置
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN110795617A (zh) 一种搜索词的纠错方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant