CN101382844A - 一种输入间隔分词的方法 - Google Patents

一种输入间隔分词的方法 Download PDF

Info

Publication number
CN101382844A
CN101382844A CNA2008102017533A CN200810201753A CN101382844A CN 101382844 A CN101382844 A CN 101382844A CN A2008102017533 A CNA2008102017533 A CN A2008102017533A CN 200810201753 A CN200810201753 A CN 200810201753A CN 101382844 A CN101382844 A CN 101382844A
Authority
CN
China
Prior art keywords
input
input method
interval
inputting
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102017533A
Other languages
English (en)
Inventor
林正昱
王正明
林国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI APE-TECH CORP
Original Assignee
SHANGHAI APE-TECH CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI APE-TECH CORP filed Critical SHANGHAI APE-TECH CORP
Priority to CNA2008102017533A priority Critical patent/CN101382844A/zh
Publication of CN101382844A publication Critical patent/CN101382844A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种输入间隔分词的方法,特别是涉及一种根据用户输入停顿时间自动分词的输入间隔分词的方法,记录并计算当前连续输入两个字符或编码之间的时间间隔,并把该时间间隔与阈值相比较,连续输入两个字符或编码之间的时间间隔大于该阈值为长间隔,小于等于该阈值则为短间隔;短间隔表示的是同一个字或词的若干输入字符或编码之间的输入停顿时间;长间隔表示的是分词停顿时间,也即一个字或词的若干输入字符或编码输入完毕。本发明解决了输入法编码输入歧义和输入效率无法提高的问题,弥补了现有技术的不足。

Description

一种输入间隔分词的方法
技术领域
本发明涉及一种输入间隔分词的方法,特别是涉及一种根据用户输入停顿时间自动分词的输入间隔分词的方法。
背景技术
当前的汉字输入编码分为音码与形码两大类。音码以拼音为代表,形码以五笔为代表。两种编码都存在着一个编码歧义的问题。以拼音编码“jinan”为例,即可表示“济南”,也可表示“静安”。又如Cooling输入法中的支持五笔组词的输入法,当输入五笔词组“ggggghdje”,可表示为“王(gggg)正(ghd)明(je)”、“五(gg)五(gg)正(ghd)明(je)”等多种词组。由于五笔的编码比较分散,在五笔中这类歧义出现的频率更高。
目前的输入法一般都采用在编码中加入分隔符的方式,人工来完成分词。如用户输入“ji’nan”,明确表示了他的意愿。还有一些其它方法来消除拼音的歧义,主要是根据用户前面输入的内容,来判断该选择哪个编码;也有使用统计观点,谁词频高就选谁。从目前的语言识别方式来看,都找不出一种比较完善、快捷的规则来消除这类编码歧义。
同时在各种输入法输入文字的时候,总需要经常按空格键作为辅助键以确认或空格,比如我们在录入英文时,输入每一个单词后都必须按一次空格键,按平均单词四个字母长度计算,输入一篇文章将有约五分之一的时间用于敲击空格键,文字录入效率明显难以提高;输入中文时也是同理。
发明内容
本发明的目的是提供一种输入间隔分词的方法,也就是提供一种根据用户输入停顿时间自动分词的输入间隔分词的方法。为了解决目前输入法编码输入歧义和输入效率无法提高的问题,本发明通过计算用户连续输入两个字符或编码之间的时间间隔,自动判断该输入是否要分词。本发明解决了输入法编码输入歧义和输入效率无法提高的问题,弥补了现有技术的不足。
本发明的一种输入间隔分词方法,是一种按输入法输入字符或编码实现录入文字的方法,记录并计算当前连续输入两个字符或编码之间的时间间隔,并把该时间间隔与阈值相比较,连续输入两个字符或编码之间的时间间隔大于该阈值为长间隔,小于等于该阈值则为短间隔;所述的阈值自动默认为前若干个时间间隔的平均数,当然也可以是用户自己设定某一时间值作为阈值;
短间隔表示的是同一个字或词的若干输入字符或编码之间的输入停顿时间;
长间隔表示的是分词停顿时间,也即一个字或词的若干输入字符或编码输入完毕。
用户在输入完一个字词,准备输入下一个字词前,会有一个思考过程,这个思考过程体现在用户的动作上,成为一个输入间隔。这个输入间隔的时间虽然很短,但如果与用户在一个完整字词输入内的击键间隔时间比,还是有着明显的差别。输入间隔客观上体现了用户的输入愿望。因此利用这个输入间隔做为分词的依据,来解决编码歧义的问题,提高文字录入的效率。
作为优选的技术方案:
如上所述的一种输入间隔分词方法,其中,所述的平均数是算术平均数、加权算术平均数、几何平均数、调和平均数、平方平均数以及调和平方平均数中的一种;
如上所述的一种输入间隔分词方法,其中,所述的前若干个时间间隔为2~10个,一般地来说,大多数的字词编码或字母音节长度都在此范围内。
如上所述的一种输入间隔分词方法,其中,所述的前若干个时间间隔为3~5个,尤其是在使用五笔输入法时,3~5个时间间隔基本上都已包含长间隔和短间隔,在此情况下,通过阈值比较已可以确定其中某停顿是否需要分词。
如上所述的一种输入间隔分词方法,其中,文字录入结束时的阈值被记录存档,作为后次文字录入的参考,记录的保存有利于帮助如上述情况出现时的判断。
如上所述的一种输入间隔分词方法,其中,所述的输入法包括音码输入法、形码输入法和音形码输入法。
如上所述的一种输入间隔分词方法,其中,所述的音码输入法包括微软拼音输入法、智能ABC输入法、紫光拼音输入法、谷歌拼音输入法和搜狗拼音输入法,所述的形码输入法包括五笔输入法、王码五笔输入法、万能五笔输入法、极点五笔输入法、极品五笔输入法、小鸭五笔输入法、三讯五笔输入法、搜狗五笔输入法、陈桥五笔输入法、和念青五笔输入法。
本发明的一种输入间隔分词方法,有效地解决了输入法编码输入歧义。以输入拼音编码“jinan”为例,总共是输入五个字母,其间有四次停顿,当第二次停顿时间大于其它停顿时间时,即判定表示“济南”;而当第三次停顿时间大于其它停顿时间时,则判定表示“静安”。从实际中发现,用户的输入间隔时间集中在两个区域,一个区域是代表输入同一字的几个编码间的间隔时间,另一个区域是代表前字最后一个编码和后字最前一个编码之间的间隔时间,两个区域的输入间隔时间都以一个正态分布的形式存在。用μ表示输入间隔时间的平均数,用σ表示输入间隔时间的标准差。从正态分布的定义可以得知,输入间隔时间的正态分布是由平均数μ与标准差σ唯一决定的。
由于输入间隔时间基本均匀的分布在平均数μ的左右两侧,因此基本可以用平均数μ(或相应的平均数算法)做为分隔长短间隔的阈值,阈值一般自动默认为前若干个时间间隔的平均数,当然也可以是用户自己设定某一时间值作为阈值。大于这个阈值为长间隔,小于这个阈值为短间隔。可以看到阈值基本可以描述为一次录入单字或词条中输入间隔的平均数μ,是一个动态的值,会随着用户的输入而变化。阈值之所以这样定,是考虑了每个用户打字的速度都不同,不能武断地去制定一个固定不变的值,而是要考虑每个用户的实际输入习惯与能力。这里说的平均数包括平均数是算术平均数、加权算术平均数、几何平均数、调和平均数、平方平均数以及调和平方平均数。
本发明的一种输入间隔分词方法,大大提高了文字录入的输入效率,特别是在录入类似于英文这样语言的文章时也非常有效。在整篇文章的录入过程中,输入将是一气呵成,不必在输入每个单词后再加上空格键,本发明将自动为输入进行分词。
本发明的有益效果是:
本发明的一种输入间隔分词方法,技术可行可靠,有效地解决了输入法编码输入歧义,大大提高了文字录入的输入效率。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的一种输入间隔分词方法,是一种按输入法输入字符或编码实现录入文字的方法,记录并计算当前连续输入两个字符或编码之间的时间间隔,并把该间隔与时间阈值相比较,连续输入两个字符或编码之间的时间间隔大于该阈值为长间隔,小于等于该阈值则为短间隔;阈值一般自动默认为前若干个时间间隔的平均数,当然也可以是用户自己设定某一时间值作为阈值;
短间隔表示的是同一个字或词的若干输入字符或编码之间的输入停顿时间;
长间隔表示的是分词停顿时间,也即一个字或词的若干输入字符或编码输入完毕。
用户在输入完一个字词,准备输入下一个字词前,会有一个思考过程,这个思考过程体现在用户的动作上,成为一个输入间隔。这个输入间隔的时间虽然很短,但如果与用户在一个完整字词输入内的击键间隔时间比,还是有着明显的差别。输入间隔客观上体现了用户的输入愿望。因此利用这个输入间隔做为分词的依据,来解决编码歧义的问题,提高文字录入的效率。
其中,所述的平均数是算术平均数、加权算术平均数、几何平均数、调和平均数、平方平均数以及调和平方平均数中的一种;所述的前若干个时间间隔为2~10个,一般地来说,大多数的字词编码或字母音节长度都在此范围内;所述的前若干个时间间隔为3~5个,尤其是在使用五笔输入法时,3~5个时间间隔基本上都已包含长间隔和短间隔,在此情况下,通过阈值比较已可以确定其中某停顿是否需要分词;文字录入结束时的阈值被记录存档,作为后次文字录入的参考,记录的保存有利于帮助如上述情况出现时的判断;所述的输入法包括音码输入法、形码输入法和音形码输入法;所述的音码输入法包括微软拼音输入法、智能ABC输入法、紫光拼音输入法、谷歌拼音输入法和搜狗拼音输入法,所述的形码输入法包括五笔输入法、王码五笔输入法、万能五笔输入法、极点五笔输入法、极品五笔输入法、小鸭五笔输入法、三讯五笔输入法、搜狗五笔输入法、陈桥五笔输入法、和念青五笔输入法。在录入类似于英文这样语言的文章时也非常有效,在整篇文章的录入过程中,输入将是一气呵成,不必在输入每个单词后再加上空格键,本发明将自动为输入进行分词。

Claims (8)

1.一种输入间隔分词方法,是一种按输入法输入字符或编码实现录入文字的方法,其特征是:记录并计算当前连续输入两个字符或编码之间的时间间隔,并把该时间间隔与阈值相比较,连续输入两个字符或编码之间的时间间隔大于该阈值为长间隔,小于等于该阈值则为短间隔;
短间隔表示的是同一个字或词的若干输入字符或编码之间的输入停顿时间;
长间隔表示的是分词停顿时间,也即一个字或词的若干输入字符或编码输入完毕。
2.如权利要求1所述的一种输入间隔分词方法,其特征在于,所述的阈值是前若干个时间间隔的平均数,也可以是用户设定某一时间值作为阈值。
3.如权利要求2所述的一种输入间隔分词方法,其特征在于,所述的平均数是算术平均数、加权算术平均数、几何平均数、调和平均数、平方平均数以及调和平方平均数中的一种。
4.如权利要求2所述的一种输入间隔分词方法,其特征在于,所述的前若干个时间间隔为2~10个。
5.如权利要求2所述的一种输入间隔分词方法,其特征在于,所述的前若干个时间间隔为3~5个。
6.如权利要求2所述的一种输入间隔分词方法,其特征在于,文字录入结束时的阈值被记录存档,作为后次文字录入的参考。
7.如权利要求1所述的一种输入间隔分词方法,其特征在于,所述的输入法包括音码输入法、形码输入法和音形码输入法。
8.如权利要求7所述的一种输入间隔分词方法,其特征在于,所述的音码输入法包括微软拼音输入法、智能ABC输入法、紫光拼音输入法、谷歌拼音输入法和搜狗拼音输入法,所述的形码输入法包括五笔输入法、王码五笔输入法、万能五笔输入法、极点五笔输入法、极品五笔输入法、小鸭五笔输入法、三讯五笔输入法、搜狗五笔输入法、陈桥五笔输入法、和念青五笔输入法。
CNA2008102017533A 2008-10-24 2008-10-24 一种输入间隔分词的方法 Pending CN101382844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008102017533A CN101382844A (zh) 2008-10-24 2008-10-24 一种输入间隔分词的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102017533A CN101382844A (zh) 2008-10-24 2008-10-24 一种输入间隔分词的方法

Publications (1)

Publication Number Publication Date
CN101382844A true CN101382844A (zh) 2009-03-11

Family

ID=40462712

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102017533A Pending CN101382844A (zh) 2008-10-24 2008-10-24 一种输入间隔分词的方法

Country Status (1)

Country Link
CN (1) CN101382844A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950222A (zh) * 2010-09-28 2011-01-19 深圳市同洲电子股份有限公司 一种用于数字电视接收终端的手写输入方法、装置及系统
CN102750003A (zh) * 2012-05-30 2012-10-24 华为技术有限公司 文本输入的方法和装置
CN103984421A (zh) * 2014-04-23 2014-08-13 北京百文宝科技股份有限公司 基于按键节奏信息的输入方法和输入系统
CN104718545A (zh) * 2012-10-16 2015-06-17 谷歌公司 递增的多词识别
CN105335415A (zh) * 2014-08-04 2016-02-17 北京搜狗科技发展有限公司 基于输入预测的搜索方法和输入法系统
CN106484132A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN106598951A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种依存结构树库获取方法及系统
CN108241440A (zh) * 2016-12-27 2018-07-03 北京搜狗科技发展有限公司 一种候选词展示方法和装置
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置
US10140284B2 (en) 2012-10-16 2018-11-27 Google Llc Partial gesture text entry
US10402734B2 (en) 2015-08-26 2019-09-03 Google Llc Temporal based word segmentation
CN111045529A (zh) * 2019-12-13 2020-04-21 金蝶智慧科技(深圳)有限公司 一种数据输入方法、系统及相关设备
US10977440B2 (en) 2012-10-16 2021-04-13 Google Llc Multi-gesture text input prediction
US11334717B2 (en) 2013-01-15 2022-05-17 Google Llc Touch keyboard using a trained model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1117161A (zh) * 1994-08-18 1996-02-21 李金铠 键盘书写式中文电脑
CN1442777A (zh) * 2002-03-06 2003-09-17 吴建国 模拟汉字笔划的汉字键盘输入法
CN1470974A (zh) * 2002-07-25 2004-01-28 李晓波 用数字键盘输入文字信息的方法
CN1556458A (zh) * 2004-01-05 2004-12-22 郑 方 一种中文整句输入法
CN101122821A (zh) * 2007-10-29 2008-02-13 广东国笔科技有限公司 一种用于数字键盘上的连句输入的词语切分系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1117161A (zh) * 1994-08-18 1996-02-21 李金铠 键盘书写式中文电脑
CN1442777A (zh) * 2002-03-06 2003-09-17 吴建国 模拟汉字笔划的汉字键盘输入法
CN1470974A (zh) * 2002-07-25 2004-01-28 李晓波 用数字键盘输入文字信息的方法
CN1556458A (zh) * 2004-01-05 2004-12-22 郑 方 一种中文整句输入法
CN101122821A (zh) * 2007-10-29 2008-02-13 广东国笔科技有限公司 一种用于数字键盘上的连句输入的词语切分系统

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950222A (zh) * 2010-09-28 2011-01-19 深圳市同洲电子股份有限公司 一种用于数字电视接收终端的手写输入方法、装置及系统
CN102750003B (zh) * 2012-05-30 2016-08-10 华为技术有限公司 文本输入的方法和装置
CN102750003A (zh) * 2012-05-30 2012-10-24 华为技术有限公司 文本输入的方法和装置
CN113467622A (zh) * 2012-10-16 2021-10-01 谷歌有限责任公司 递增的多词识别
CN104718545A (zh) * 2012-10-16 2015-06-17 谷歌公司 递增的多词识别
US11379663B2 (en) 2012-10-16 2022-07-05 Google Llc Multi-gesture text input prediction
US10140284B2 (en) 2012-10-16 2018-11-27 Google Llc Partial gesture text entry
US10977440B2 (en) 2012-10-16 2021-04-13 Google Llc Multi-gesture text input prediction
US10489508B2 (en) 2012-10-16 2019-11-26 Google Llc Incremental multi-word recognition
US11727212B2 (en) 2013-01-15 2023-08-15 Google Llc Touch keyboard using a trained model
US11334717B2 (en) 2013-01-15 2022-05-17 Google Llc Touch keyboard using a trained model
CN103984421A (zh) * 2014-04-23 2014-08-13 北京百文宝科技股份有限公司 基于按键节奏信息的输入方法和输入系统
CN105335415A (zh) * 2014-08-04 2016-02-17 北京搜狗科技发展有限公司 基于输入预测的搜索方法和输入法系统
US10846602B2 (en) 2015-08-26 2020-11-24 Google Llc Temporal based word segmentation
US10402734B2 (en) 2015-08-26 2019-09-03 Google Llc Temporal based word segmentation
CN106484132B (zh) * 2015-09-02 2021-05-25 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN106484132A (zh) * 2015-09-02 2017-03-08 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置
CN106598951B (zh) * 2016-12-23 2019-08-16 北京金山办公软件股份有限公司 一种依存结构树库获取方法及系统
CN106598951A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种依存结构树库获取方法及系统
CN108241440A (zh) * 2016-12-27 2018-07-03 北京搜狗科技发展有限公司 一种候选词展示方法和装置
CN108241440B (zh) * 2016-12-27 2023-02-17 北京搜狗科技发展有限公司 一种候选词展示方法和装置
WO2018184510A1 (zh) * 2017-04-07 2018-10-11 腾讯科技(深圳)有限公司 分词方法、装置及存储介质
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置
CN108304367B (zh) * 2017-04-07 2021-11-26 腾讯科技(深圳)有限公司 分词方法及装置
CN111045529A (zh) * 2019-12-13 2020-04-21 金蝶智慧科技(深圳)有限公司 一种数据输入方法、系统及相关设备
CN111045529B (zh) * 2019-12-13 2024-01-26 金蝶智慧科技(深圳)有限公司 一种数据输入方法、系统及相关设备

Similar Documents

Publication Publication Date Title
CN101382844A (zh) 一种输入间隔分词的方法
TWI636452B (zh) 語音識別方法及系統
CN107562824B (zh) 一种文本相似度检测方法
Zhao et al. Effective tag set selection in Chinese word segmentation via conditional random field modeling
RU2004129675A (ru) Система для идентификации перефразирования с использованием технологии машинного перевода
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN112541109B (zh) 答案摘要抽取方法及装置、电子设备、可读介质、产品
Sharma et al. Word prediction system for text entry in Hindi
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN112270166A (zh) 一种快速制作创建5g消息的方法
CN112784599B (zh) 诗句的生成方法、装置、电子设备和存储介质
CN107092669A (zh) 一种建立机器人智能交互的方法
CN115525728A (zh) 汉字排序、汉字检索和汉字插入的方法和装置
CN106598936B (zh) 字母词的提取方法及装置
CN104991657A (zh) 一种中文和日文假名综合输入法及输入法系统
JP6269953B2 (ja) 単語分割装置、方法、及びプログラム
Petmanson Authorship identification using correlations of frequent features
CN101324808A (zh) 中英文主题词编码唯一的编码法及专用字母点播器
CN111083558B (zh) 一种用于提供视频节目内容总结的方法及其系统
TWI541664B (zh) Computer - aided selection of word - free input
CN103455159A (zh) 运用于英语输入法中的英语字符串输入技术及实现方法
WO2017113037A1 (zh) 一种输入通用字的方法
CN111159337A (zh) 化学表达式提取方法、装置及设备
CN114067330A (zh) 一种古琴谱文本检索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Teng Xue

Document name: Notification of Patent Invention Entering into Substantive Examination Stage

DD01 Delivery of document by public notice

Addressee: Jin Liqin

Document name: Notification to Go Through Formalities of Registration

DD01 Delivery of document by public notice
DD01 Delivery of document by public notice

Addressee: Shanghai Ape-Tech Corp.

Document name: Notification that Entitlement to Patent Deemed Abandoned

DD01 Delivery of document by public notice

Addressee: Shanghai Ape-Tech Corp.

Document name: Notification to Go Through Formalities Rectification of Restoration of Right

AD01 Patent right deemed abandoned

Effective date of abandoning: 20090311

C20 Patent right or utility model deemed to be abandoned or is abandoned
DD01 Delivery of document by public notice

Addressee: Shanghai Ape-Tech Corp.

Document name: Notification of Decision on Request for Restoration of Right