CN101135937A - 一种整句输入法 - Google Patents

一种整句输入法 Download PDF

Info

Publication number
CN101135937A
CN101135937A CNA2007100298631A CN200710029863A CN101135937A CN 101135937 A CN101135937 A CN 101135937A CN A2007100298631 A CNA2007100298631 A CN A2007100298631A CN 200710029863 A CN200710029863 A CN 200710029863A CN 101135937 A CN101135937 A CN 101135937A
Authority
CN
China
Prior art keywords
node
input
sentence
literal
outer code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100298631A
Other languages
English (en)
Inventor
高精鍊
陈炳辉
黄新春
胡安进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guang Dong Guobi Science & Technology Co Ltd
Original Assignee
Guang Dong Guobi Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guang Dong Guobi Science & Technology Co Ltd filed Critical Guang Dong Guobi Science & Technology Co Ltd
Priority to CNA2007100298631A priority Critical patent/CN101135937A/zh
Publication of CN101135937A publication Critical patent/CN101135937A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

为了进一步提高在数字键盘上的输入速度,再次扩大输入单位到句子,整句输入一定程度上减少用户对选字次数,同时可以让用户在不打断思维的情况下连续输入。但整句输入与词语存在本质上的差别,虽然句子按照一定的语法来组织,但是语法本身的原则性和灵活性,用有限的汉字可以造就了无数的句子,因而整句输入法无法做到象词语输入那样,预先在数据库中储存目标语句。那么整句输入必需寻找另外一种搜索方法来达到整句输入。本发明提出了一种整句输入法,就是针对这个问题,提出一个通过网式串连的方式来匹配解码的解决方案。

Description

一种整句输入法
技术领域
本发明涉及一种输入法。一种主要用于数字小键盘上的中文整句输入。
背景技术
中文输入,特别是在小键盘上的中文输入,由于一个音符与多个汉字关联,在输入过程中产生大量的重码,需要用户根据需要选择,这样会在很大的程度上减慢输入的速度。为减少汉字输入的选字步骤,随着输入设备的不断升级,处理器能承担更大的处理和分析能力,数字键盘上的汉字输入由单字输入发展到词语、短语输入,这种扩大输入单位的方法,可以减少重码,减少选字,可以很大程度上提高输入速度。词语、短语输入法是从已经储存了词语、短语的词库中搜索,选出与输入外码对应的词语或短语。
为了进一步提高在数字键盘上的输入速度,再次扩大输入单位到句子,整句输入一定程度上减少用户对选字次数,同时可以让用户在不打断思维的情况下连续输入。但整句输入与词语存在本质上的差别,虽然句子按照一定的语法来组织,但是语法本身的原则性和灵活性,用有限的汉字可以造就了无数的句子,因而整句输入法无法做到象词语输入那样,预先在数据库中储存目标语句。那么整句输入必需寻找另外一种搜索方法来达到整句输入。本发明就是针对这个问题,提出一个解决方案。
发明内容
1、本发明的目的是提出一种根据语语法设置的语句模型解决整句输入中如何搜索解码。
2、本发明的的整句输入方法包括以下步骤:
(1)在数字键盘上输入整句的指令外码。这里的数字键盘主要是通讯、个人数字助理以及家庭电器无线控制器等的输入设备,这种键盘都由0-9十个数字键和,另外一般包含数个功能辅助键,如:确认键、*键、#键、四个方向键。
(2)处理器收到指令外码后按照以下方式对外码串进行解码:
a.通过根据语法、语义设置的句子模型来选择各节点的文字以连接成文字串。在选定前每个节点的文字并不确定,存在多种选择的可能,那么对外码解码的结果可能更多,处理器对句子外码串作出分析搜索,把可能出现的各种解码和各种句子模型对比,确定各节点的字、词语或短语,把各节点字、词语或短语串联成句。
b.指令串超出语法常规的,处理器根据语句模型没有搜索到于整个句子外码相匹配的串连,不能把各节点的文字、词语或短语连接成串,不能串连的节点则根据对应外码的使用频率选择文字。
本解码方法是一种网式串连方式,每个音符与多个文字相关联,一个语句就是由每个音符关联的文字作为节点,再由处理器根据语句模型选择序列中的节点文字,串连成句。
(3)在显示设备上显示指令外码串对应的文字串。在输入外码的同时,处理器根据输入外码变化,动态解码匹配,选择与语句模型相符合的句子。
3、在外码输入完毕,显示设备显示的句子不符合目标输入时,可以选定错误节点进行修改,选择符合目标输入的文字,当其中某个节点文字被选定,处理器将以该节点为必经节点,重新搜索匹配,找出匹配的句子。
本发明提出的整句输入网式节点串连方案,其优点在于:
1、利用语句模型网式节点串连方案,可以不必象词语和短语输入那样,必须在数据库中存入大量的语句,减少安装在数字键盘这种小巧灵便设备中内存容量,更何况语句的丰富程度及变化难以存入在数据库中。
2、利用语句模型网式节点串连方案,尽可能的使输入设备匹配的语句尽可能的接近目标输入,以减少需要修改的时间。
3、利用语句模型网式节点串连方案,在修改错误选择的节点的同时,处理器会对其它未选定的各节点根据选定的节点为必经路径重新解码,以解码成最接近的目标输入,减少修改次数和修改时间。
附图说明
附图1为本发明方法得流程图。
附图2为本发明方法节点网式串连模拟图。
附图3为本发明方法整句串连模拟图。
附图4为本发明方法使用示例图。
具体实施方式
本发明提出的整句输入方法,是首先根据语法、语义来设置语句模型,然后按照语句模型用网式串连的方式来选择节点文字。
例如,在标准设置的数字键盘上输入“我们去看电影”的外码串“966367852634269464”,处理器搜索选择过程如图4;
处理器首先搜索显示外码串中可能的词语,“96636”对应词语“我们”,“5263426”对应词语“考点”,“34269464”对应词语“电影”,然后根据句子模型,及语法语义,选择“我们”——“去”——“看”——“电影”的串连。在这里“我们”为代词一般作为主语后面接谓语所以选择“去”,“5263426”本来也与词语“考点”对应,如果这句串码没有后面的“9464”就可解码成“我们去考点”,主谓宾结构。但是后面还有“9464”,如果前面解码成“我们去考点”,后面就无法再串连起来。这里处理器首选一个能完整串连的句子,由于“3426 9464”对应常用词语“电影”,“626”根据后面词语“电影”从语义上选择“看”,这样解码也符合已经设置的句子结构。
本发明所述的节点可以是根据句子结构进行切分的词语,然后再串连。
例如:我们准备输入“考试成绩”,首先输入“考”的代码“526”,因单字无法适用语句模型来判断,所以直接根据词语的使用频率,“526”的优选项为“看”,在此无需马上进行更正或选择,我们可以继续往下输入句子更多外码,让处理器来判断。继续输入“744”,处理器仍然首先在数据库中搜索存储的选项,优选使用频率高的“老师”;继续输入“成”的外码“24364”,由于在数据库中没有对应之前输入的外码词语或短语,处理器就开始根据句子模型进行选择,根据句子结构和词语使用频率,对之前的外码解码成“老师成”,继续输入“绩”的外码“54”,根据处理器默认规则,首先切分句子中的词语,再把各节点串连起来,之前外码解码成“考试成绩”。
本发明的整句输入法,在修改错误选择的节点的同时,处理器会对其它未选定的各节点根据选定的节点为必经路径重新解码,以解码成最接近的目标输入,减少修改次数和修改时间。
例如输入“睡觉前不要吃水饺”,首先输入代码“7484542674262892624474845426”,处理器根据句子模型解码成“睡觉稍不延迟睡觉”。由于不符合输入目标,需要对处理器默认的节点进行修改或重选。首先把“稍”改成“前”,光标自动移动到下一个节点,下一节点处理器默认的是使用频率最高的“不”,其次是短语“不要”,选择“不要”,其实已经把默认识别的节点切分更改了,原来为“不—延迟—睡觉”,更改“不”为“不要”以后,处理器以已经确定的节点为必经的路径对其它未确定的重新切分选择,切分方式变为“不要—吃—水饺”。这样减少了修改的次数和时间,更加方便输入。

Claims (4)

1.一种整句输入法,其特征是在数字小键盘上,用于对用户输入的中文句子指令外码串一次性解码并产生中文句子文本输入,所述方法包括以下步骤:
(1)将句子对应外码串输入到用户的输入设备;
(2)处理器收到指令外码后按照以下方式对外码串进行解码:
通过根据语法、语义设置的句子模型来选择各节点的文字以连接成文字串;
指令串超出语法常规的,处理器不能把所有的文字连接成一个句子的文字串,不能串连的节点根据对应外码的使用频率选择文字;
(3)在显示设备上显示指令外码串对应的文字串;
(4)对显示的文字串不符合输入目标,选定节点选择其它需要的文字;
(5)确定输入的句子。
2.如权利要求1所述的方法,其特征在于从第一个外码输入开始,处理器开始动态跟踪指令外码并进行搜索与字库匹配,根据语句模型连接成的文字串在显示设备上显示文字或文字串。
3.如权利要求1所述的方法,其特征在于对默认选择的节点文字进行修改时,该节点文字一旦确定,其它仍未选定文字的节点根据句子模型,以选定文字的节点为必经节点重新选定文字串。
4.如权利要求1所述的方法,其特征在于节点文字是存储在数据库中字、词和短语。
CNA2007100298631A 2007-08-23 2007-08-23 一种整句输入法 Pending CN101135937A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100298631A CN101135937A (zh) 2007-08-23 2007-08-23 一种整句输入法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100298631A CN101135937A (zh) 2007-08-23 2007-08-23 一种整句输入法

Publications (1)

Publication Number Publication Date
CN101135937A true CN101135937A (zh) 2008-03-05

Family

ID=39160054

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100298631A Pending CN101135937A (zh) 2007-08-23 2007-08-23 一种整句输入法

Country Status (1)

Country Link
CN (1) CN101135937A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置
CN107688397A (zh) * 2016-08-03 2018-02-13 北京搜狗科技发展有限公司 一种输入方法、系统和用于输入的装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置
CN107688397A (zh) * 2016-08-03 2018-02-13 北京搜狗科技发展有限公司 一种输入方法、系统和用于输入的装置
CN107688397B (zh) * 2016-08-03 2022-10-21 北京搜狗科技发展有限公司 一种输入方法、系统和用于输入的装置

Similar Documents

Publication Publication Date Title
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN103927329B (zh) 一种即时搜索方法和系统
US20080158023A1 (en) Apparatus and Method for Expressing Hangul
JP3921523B2 (ja) テキスト生成方法及びテキスト生成装置
Mahmud et al. A rule based approach for NLP based query processing
WO2021013466A1 (en) Neural relation extraction within and across sentence boundaries
CA2509015A1 (en) Handheld electronic device with text disambiguation
WO2009152732A1 (zh) 一种供机器语言翻译的通用数码语义库
Kestemont et al. Integrated sequence tagging for medieval Latin using deep representation learning
Wahl et al. Multi-word expressions: A novel computational approach to their bottom-up statistical extraction
Dudy et al. Are some words worth more than others?
Trost et al. The language component of the FASTY text prediction system
CN101135937A (zh) 一种整句输入法
Mridha et al. New approach of solving semantic ambiguity problem of bangla root words using universal networking language (UNL)
Lin et al. Developing a chunk-based grammar checker for translated English sentences
Su et al. Investigating linguistic pattern ordering in hierarchical natural language generation
Loftsson Tagging Icelandic text: An experiment with integrations and combinations of taggers
JP2005506635A (ja) 言語又は方法により限定されないコンピュータ制御のコーダ・デコーダ
Mukherjee et al. Intent classification from code mixed input for virtual assistants
van Cranenburgh Rich statistical parsing and literary language
Gong et al. Improved word list ordering for text entry on ambiguous keypads
Manohar et al. Spellchecker for Malayalam using finite state transition models
Milovanović et al. Part of speech tagging for serbian language using natural language toolkit
Suhail et al. A Bottom-Up Approach applied to Dependency Parsing in Malayalam Language
Mridha et al. Solving semantic problem of phrases in NLP using universal networking language (UNL)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080305