CN101995963A - 词汇自适应中文输入方法 - Google Patents

词汇自适应中文输入方法 Download PDF

Info

Publication number
CN101995963A
CN101995963A CN 201010551084 CN201010551084A CN101995963A CN 101995963 A CN101995963 A CN 101995963A CN 201010551084 CN201010551084 CN 201010551084 CN 201010551084 A CN201010551084 A CN 201010551084A CN 101995963 A CN101995963 A CN 101995963A
Authority
CN
China
Prior art keywords
vocabulary
chinese
dictionary
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010551084
Other languages
English (en)
Other versions
CN101995963B (zh
Inventor
王晓龙
刘秉权
汤步洲
单丽莉
孙承杰
刘铭
陈清财
王轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201010551084XA priority Critical patent/CN101995963B/zh
Publication of CN101995963A publication Critical patent/CN101995963A/zh
Application granted granted Critical
Publication of CN101995963B publication Critical patent/CN101995963B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

词汇自适应中文输入方法,本发明涉及一种计算机、手机、或者掌上电子产品等的词汇自适应的中文输入方法。它降低输入法的背景噪音,减少系统开销,实现个性化输入。它用于汉字输入。它包括下述步骤:输入汉语拼音字符串;进行音节切分;根据本地的通用词库中词的状态和已经加载到本地的领域专业词库的状态对音节串进行汉语语句转换;输出汉字字符串;搜索位于服务器端的领域专业词库并判断已输入汉语语句中是否包含位于服务器端的领域词库集中的词汇;如果存在这样的词汇,则将包含该词汇的领域专业词库加载到本地;根据选择确定的汉语语句输入,对位于本地的通用词库和已经加载到本地的领域专业词库中的词进行词汇状态调整。

Description

词汇自适应中文输入方法
技术领域
本发明涉及一种计算机、手机、或者掌上电子产品等的词汇自适应的中文输入方法。
背景技术
随着网络技术的持续发展,汉语词汇量不断增加,数以十万、百万计的词汇充斥着人们的日常生活。中文输入法对海量网络词库支持的需求越来越强烈。实际上,对于一般的用户来讲,可能使用的词汇保持在几万词左右。其他多余的词汇一方面会给输入法系统带来额外的背景噪音,会降低音字转换准确率,增加用户的使用负担;另一方面会增加操作系统存储空间的开销。如何根据给定的海量网络词库和用户的使用习惯,自动地为用户定制私有词库是现有支持海量网络词库的输入法需要解决的关键问题之一。目前,中文输入法中对词库的管理,特别是对领域专业词库的添加和删除,均是通过用户手动操作来完成的。这种模式对用户提出了以下两点要求:一、用户需要对自身所属的专业领域有准确的定位,才能对词库进行管理。二、随着时间的推移,用户所涉及的领域也是逐渐变化的,用户需要及时认清领域变化并手动作出调整。这样会大大增加用户的使用负担,在实际应用中亦难以实现。
发明内容
本发明的目的是提供一种词汇自适应中文输入方法,以降低输入法的背景噪音,减少系统开销,实现个性化输入。它基于位于服务器端的领域专业词库集、位于本地的通用词库、已经加载到本地的领域专业词库集和输入法管理系统实现,它包括下述步骤:一、从键盘输入汉语拼音字符串;二、由输入法管理系统对输入的字符串进行音节切分,形成多个音节单元,每个音节单元对应汉语中的一个或多个拼音;三、根据位于本地通用词库中词的状态和已加载到本地的领域专业词库的状态,进行音节串到汉字字符串的转换,并依次为每个音节子串提供候选;四、根据候选提示依次选择汉字词并最终输出汉字字符串;五、根据步骤四选择确定的输入汉语语句搜索位于服务端的领域专业词库集,判断已输入汉语语句中是否包含位于服务器端的领域专业词库集中的词汇;如果不存在则执行步骤六;如果存在这样的词汇,将包含该词汇的领域专业词库加载到本地,然后执行步骤六;六、根据步骤四中选择确定的输入汉语语句和步骤三中出现在候选列表中的词进行词汇状态调整,所述候选列表中的词包括位于本地的通用词库中的词和已经加载到本地的领域专业词库中的词。
由于本发明输入法在进行拼音串到汉字串的转换过程中,常态下只选择位于本地的通用词库中处于“激活”状态的词和已经加载到本地的处于“激活”状态的领域专业词库中的词,降低输入法的背景噪音,减少系统开销。根据用户输入历史信息对位于服务器端的领域专业词库进行选择性加载,对位于本地的通用词库中的词和已经加载到本地的领域专业词库进行自动“激活”与“隐藏”,实现个性化输入。
本发明为支持海量网络词汇的输入法提供词库分级检索方式实现词汇自动适应,将词库分成通用词库和领域专业词库,对于通用词库中的每一个词和各个领域专业词库设置两种状:“激活”和“隐藏”,根据用户的历史输入信息自动选择用户常用词汇领域词库,降低输入法的背景噪音,减少系统开销,实现个性化输入。
附图说明
图1是本发明的流程示意图。
具体实施方式
具体实施方式一:下面结合图1具体说明本实施方式。本实施方式基于位于服务器端的领域专业词库集、位于本地的通用词库、已经加载到本地的领域专业词库集和输入法管理系统实现,它包括下述步骤:一、从键盘输入汉语拼音字符串;二、由输入法管理系统对输入的字符串进行音节切分,形成多个音节单元,每个音节单元对应汉语中的一个或多个拼音(包括全拼和简拼);三、根据位于本地通用词库中词的状态和已加载到本地的领域专业词库的状态,进行音节串到汉字字符串的转换,并依次为每个音节子串提供候选;转换过程中,每个音节单元所对应的候选汉字以及与其后面的音节单元所组成的候选汉词依次出现在候选列表中,常态下所述候选列表中的候选汉词选自位于本地的通用词库中处于“激活”状态的汉词和已经加载到本地的领域专业词库中处于“激活”状态的汉词,非常态下所述候选列表中的候选汉词选自位于本地的通用词库中处于“隐蔽”状态的汉词和已经加载到本地的领域专业词库中处于“隐蔽”状态的汉词;四、根据候选提示依次选择汉字词并最终输出汉字字符串;五、根据步骤四选择确定的输入汉语语句搜索位于服务端的领域专业词库集,判断已输入汉语语句中是否包含位于服务器端的领域专业词库集中的词汇;如果不存在则执行步骤六;如果存在这样的词汇,将包含该词汇的领域专业词库加载到本地,然后执行步骤六;六、根据步骤四中选择确定的输入汉语语句和步骤三中出现在候选列表中的词进行词汇状态调整,所述候选列表中的词包括位于本地的通用词库中的词和已经加载到本地的领域专业词库中的词。
本实施方式中融汇了两种词汇自动适应机制:本地词汇自适应和基于网络的词汇自适应机制。本地词汇自适应机制首先提出了一种词库分级检索技术,然后提供了一种词汇自适应方法。基于网络的词汇自适应机制通过对用户的输入进行分析,自动在线加载领域词库。
本地词汇自适应机制:包括一种词库分级检索技术和一种词汇自适应方法。“词库分级检索技术”认为用户具有通用特性和领域特性,将词库分成通用词库和领域词库。位于通用词库中的词被选择的优先级别高于位于领域词库中的词。通用词库由绝大多数用户经常用到的词语组成,其相互对立。领域词库由专业词汇组成。领域词库之间相互独立。领域词库中的词相互关联,共同影响领域词库本身。对通用词库中的每一个词和各个领域词库,设置两种状态:“激活”和“隐藏”。对于处于”激活”状态的词,在输入拼音的时候直接出现在候选列表中;对于处于隐藏状态的词,在输入拼音的时候不直接出现在候选列表中,只有当用户选择了该词的首字或前缀之后,才出现在候选列表中。同一领域的词汇具有相同的状态。这样,词库的检索分成了拼音和汉字两级,能有效地减少音字转换时海量词库产生的背景噪音。“词汇自适应方法”对通用词库中的词和领域词库采用“最近经常使用”原则进行”激活”,“最久未被使用”原则进行隐藏。对于每一次用户输入,用户输入拼音串时,对于处于”激活”状态的词,将直接出现在候选列表中;对于处于隐藏状态的词,通过选择该词的首字或前缀使其出现在候选列表中。在用户确认输入之后,增加被选中词的“最近经常使用”权值,未被选中词的“最久未被使用”权值,并根据这两项指标对通用词库中的词和领域词库的状态进行自动调整,达到自动为用户定制私有词库的目的。
基于网络的词汇自适应机制:主要通过客户端(本地)上传用户一次或多次的输入结果(或描述输入结果的信息),通过搜索处于服务器端的领域词库集,如果用户的最终输入结果中包含某一领域词库中的词(称为“命中”),将该词库自动加载到客户端,并按照本地词汇自适应机制进行处理。
具体实施方式二:本实施方式举一个具体例子说明本发明的方法。本发明的重点在于对词汇的自动管理。这里的词汇包括位于服务器端的领域专业词库集、位于本地的通用词库和已经加载到本地的领域专业词库集。输入法管理系统提供从服务器端加载领域专业词库到客户端的加载机制,还能完成客户端通用词库中的词的自动激活与隐藏技术以及客户端已加载的领域专业词库的自动激活与隐藏技术。为了叙述方便,假设存在一个只包含一个词的通用词库:C={“a1li3---阿里”},两个均只包含两个词的专业词库:S1={“a1li3ba1ba1---阿里巴巴”,“bai3du4---百度”}和S2={“a1mo4xi1lin2---阿莫西林”,“a1silpi3lin2---阿司匹林”}。初始状态下,C中所有的词处于激活状态,S1已经被加载到本地并处于隐藏状态,S2位于服务器端。由于全拼输入和简拼输入过程中激活机制是相同的,为了描述方便,仅以全拼输入为例作说明。
(一)拼音-汉字两级检索:以输入“百度和阿里巴巴是商业上的竞争对手”为例。首先需要输入全拼字母串“baiduhealibabashishangyeshangdejingzhengduishou”,经音节切分得到:“bai/du/he/a/li/ba/ba/shi/shang/ye/shang/de/jing/zheng/dui/shou”。对于拼音“bai/du”因S1处于隐藏状态,S1中的词“百度”不加入词网格,不出现在候选列表中。选择“bai”对应的汉字“百”,搜索S1中所有词,因存在以“百”为前缀的词“百度”,将“百度”加入到词网格,并出现在候选列表中,选择“百度”。然后选择“he”对应的汉字“和”。对于拼音“a/li/ba/ba”,“阿里”处于激活状态,已经加入到词网格,出现在候选列表中,而“阿里巴巴”因所属领域类别S1处于隐藏状态,不加入词网格,不出现在候选列表中,选择“a”对应的“阿”或者“a/li”对应的“阿里”,搜索S1中所有的词,因存在以“阿”或者“阿里”为前缀的词“阿里巴巴”,将“阿里巴巴”加入到词网格,并出现在候选列表中,选择“阿里巴巴”。然后依次选择“是商业上的竞争对手”直到确认输入。
(二)本地词汇自动适应方法:在实施实例1完成之后,因处于隐藏状态的S1中的词被选中并输入到应用程序中,需要增加S1的“最近经常使用”权值,根据调整后的权值重新判断S1的状态。假设实施实例1能使S1的状态从“隐藏”变成“激活”,则下次再输入字母串“baidu”或“alibaba”时,“百度”和“阿里巴巴”将会分别出现在候选列表中。对于已经激活的词库S1,再次遇到包含“bai/du”或者“a/li/ba/ba”拼音子串的输入时,没有选择“百度”或者“阿里巴巴”,将会增加S1的“最久未被使用”权值,根据调整后的权值重新判断S1的状态。经过一次或者多次类似的连续操作,S1将会从“激活”状态变成“隐藏”状态。对于通用词库中的词“阿里”,如果一次或者多次遇到包含“a/li”拼音子串的输入时,“阿里”出现在候选列表中而没有被选中,同样会增加“阿里”的“最久未被使用”权值,并最终将“阿里”的状态变成“隐藏”状态。
(三)领域词汇自动加载:对位于服务器端的领域专业词库S2,当输入包含“amoxilin”或者“asipliin”的字母串时,如果通过选择,最终确定输入汉语语句中包含“阿莫西林”或者“阿司匹林”子串(或表示这两个子串的信息),检索S2,因存在“阿莫西林”和“阿司匹林”这两个词,通知客户端加载词库S2,并按实施实例2所述方法调整相关词汇的状态。
(四)在领域词汇自动加载过程中,如果遇到网络断开的情况,在本地追加保存用户输入信息日志。当网络流畅的时候,一起发送到服务器端进行加载判别和处理。

Claims (5)

1.词汇自适应中文输入方法,其特征在于它基于位于服务器端的领域专业词库集、位于本地的通用词库、已经加载到本地的领域专业词库集和输入法管理系统实现,它包括下述步骤:一、从键盘输入汉语拼音字符串;二、由输入法管理系统对输入的字符串进行音节切分,形成多个音节单元,每个音节单元对应汉语中的一个或多个拼音;三、根据位于本地通用词库中词的状态和已加载到本地的领域专业词库的状态,进行音节串到汉字字符串的转换,并依次为每个音节子串提供候选;四、根据候选提示依次选择汉字词并最终输出汉字字符串;五、根据步骤四选择确定的输入汉语语句搜索位于服务端的领域专业词库集,判断已输入汉语语句中是否包含位于服务器端的领域专业词库集中的词汇;如果不存在则执行步骤六;如果存在这样的词汇,将包含该词汇的领域专业词库加载到本地,然后执行步骤六;六、根据步骤四中选择确定的输入汉语语句和步骤三中出现在候选列表中的词进行词汇状态调整,所述候选列表中的词包括位于本地的通用词库中的词和已经加载到本地的领域专业词库中的词。
2.根据权利要求1所述的词汇自适应中文输入方法,其特征在于初始状态下步骤三中位于通用词库中的词汇被选择的优先级别高于位于领域词库中的词汇。
3.根据权利要求1所述的词汇自适应中文输入方法,其特征在于步骤三中,所述常态是指处于“激活”状态的词汇,在输入拼音字符的时候直接出现在候选列表中,参与音节串到汉字串的自动转换;对于处于“隐藏”状态的词汇,在输入拼音字符的时候不出现在候选列表中,不参与音节串到汉字串的自动转换,只有当用户选择该词汇的首字或前缀之后,才进入非常态,处于“隐藏”状态的词汇出现在候选列表中,参加拼音串到汉字串的自动转换。
4.根据权利要求1所述的词汇自适应中文输入方法,其特征在于步骤五中根据用户一次或多次的输入历史信息对处于服务器端的领域专业词库进行自动选择并加载。
5.根据权利要求1所述的词汇自适应中文输入方法,其特征在于步骤六中对位于本地的通用词库中的词汇和加载到本地的领域专业词库中的词汇采用“最近经常使用”原则进行激活,“最久未被使用”原则进行隐藏,根据这两项指标对上述两个词库的状态进行自动调整。
CN201010551084XA 2010-11-19 2010-11-19 词汇自适应中文输入方法 Expired - Fee Related CN101995963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010551084XA CN101995963B (zh) 2010-11-19 2010-11-19 词汇自适应中文输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010551084XA CN101995963B (zh) 2010-11-19 2010-11-19 词汇自适应中文输入方法

Publications (2)

Publication Number Publication Date
CN101995963A true CN101995963A (zh) 2011-03-30
CN101995963B CN101995963B (zh) 2012-07-04

Family

ID=43786198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010551084XA Expired - Fee Related CN101995963B (zh) 2010-11-19 2010-11-19 词汇自适应中文输入方法

Country Status (1)

Country Link
CN (1) CN101995963B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
WO2014032265A1 (en) * 2012-08-31 2014-03-06 Microsoft Corporation Browsing history language model for input method editor
CN106527754A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 一种优先字词排列方法、装置和一种移动终端
CN107247708A (zh) * 2017-07-03 2017-10-13 中国银行股份有限公司 一种姓名识别方法及系统
CN107992210A (zh) * 2017-10-11 2018-05-04 捷开通讯(深圳)有限公司 输入法词汇推荐方法、智能终端及具有存储功能的装置
CN109712613A (zh) * 2018-12-27 2019-05-03 北京百佑科技有限公司 语义分析库更新方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051323A (zh) * 2007-05-22 2007-10-10 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
CN101398834A (zh) * 2007-09-29 2009-04-01 北京搜狗科技发展有限公司 一种针对输入信息的处理方法和装置及一种输入法系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051323A (zh) * 2007-05-22 2007-10-10 北京搜狗科技发展有限公司 一种字符输入的方法、输入法系统及词库更新的方法
CN101398834A (zh) * 2007-09-29 2009-04-01 北京搜狗科技发展有限公司 一种针对输入信息的处理方法和装置及一种输入法系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014032265A1 (en) * 2012-08-31 2014-03-06 Microsoft Corporation Browsing history language model for input method editor
CN104813257A (zh) * 2012-08-31 2015-07-29 微软技术许可有限责任公司 用于输入法编辑器的浏览历史语言模型
CN103076894A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN103076894B (zh) * 2012-12-31 2016-05-18 百度在线网络技术(北京)有限公司 一种用于根据对象标识信息构建输入词条的方法与设备
CN106527754A (zh) * 2016-10-31 2017-03-22 努比亚技术有限公司 一种优先字词排列方法、装置和一种移动终端
CN107247708A (zh) * 2017-07-03 2017-10-13 中国银行股份有限公司 一种姓名识别方法及系统
CN107247708B (zh) * 2017-07-03 2021-07-20 中国银行股份有限公司 一种姓名识别方法及系统
CN107992210A (zh) * 2017-10-11 2018-05-04 捷开通讯(深圳)有限公司 输入法词汇推荐方法、智能终端及具有存储功能的装置
CN109712613A (zh) * 2018-12-27 2019-05-03 北京百佑科技有限公司 语义分析库更新方法、装置及电子设备

Also Published As

Publication number Publication date
CN101995963B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN106598939B (zh) 一种文本纠错方法及装置、服务器、存储介质
US20210073467A1 (en) Method, System and Apparatus for Entering Text on a Computing Device
CN102866782B (zh) 一种提高整句生成效率的输入法和输入法系统
JP5462001B2 (ja) 文脈上の入力方法
JP4463256B2 (ja) 複数の言語を連動する自動完成推薦語提供システムおよび方法
US7953692B2 (en) Predicting candidates using information sources
CN107330120B (zh) 询问应答方法、询问应答装置及计算机可读存储介质
US7395203B2 (en) System and method for disambiguating phonetic input
US8655643B2 (en) Method and system for adaptive transliteration
CN101995963B (zh) 词汇自适应中文输入方法
CN1918578B (zh) 具有自动校正的手写及语音输入
US20150309984A1 (en) Learning language models from scratch based on crowd-sourced user text input
WO2016008452A1 (zh) 高效输入的预测方法和装置
US20220043985A1 (en) Role labeling method, electronic device and storage medium
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
WO2007008798A3 (en) System and method for searching for network-based content in a multi-modal system using spoken keywords
CN103365925A (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
CN103268313A (zh) 一种自然语言的语义解析方法及装置
CN103927329A (zh) 一种即时搜索方法和系统
US11573989B2 (en) Corpus specific generative query completion assistant
TWI512503B (zh) 電子設備及其自然語言分析方法
CN114328852B (zh) 一种文本处理的方法、相关装置及设备
CN102866783B (zh) 一种拼音流切分方法和系统
US8782067B2 (en) Searching method, searching device and recording medium recording a computer program
CN116955610A (zh) 一种文本数据的处理方法、装置以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20141119

EXPY Termination of patent right or utility model