CN1924858B - 一种获取新词的方法、装置以及一种输入法系统 - Google Patents

一种获取新词的方法、装置以及一种输入法系统 Download PDF

Info

Publication number
CN1924858B
CN1924858B CN200610109732A CN200610109732A CN1924858B CN 1924858 B CN1924858 B CN 1924858B CN 200610109732 A CN200610109732 A CN 200610109732A CN 200610109732 A CN200610109732 A CN 200610109732A CN 1924858 B CN1924858 B CN 1924858B
Authority
CN
China
Prior art keywords
words
user
word
neologisms
word frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200610109732A
Other languages
English (en)
Other versions
CN1924858A (zh
Inventor
郭奇
佟子健
杨磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=37817498&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN1924858(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN200610109732A priority Critical patent/CN1924858B/zh
Publication of CN1924858A publication Critical patent/CN1924858A/zh
Priority to PCT/CN2007/070419 priority patent/WO2008022581A1/zh
Application granted granted Critical
Publication of CN1924858B publication Critical patent/CN1924858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取新词的方法,包括以下步骤:在用户输入过程中,获取用户选择的字词;比较用户所选字词与现有字词,根据比对结果获取用户个性字词;收集各个用户的个性字词;根据所述个性字词获得新词。以及一种词库生成方法,包括:收集各用户的输入行为信息,所述输入行为信息包括用户输入过程中的所选字词以及该字词相应的用户词频;对字词相应的各用户词频进行权重修正,计算各字词的用户累积词频;生成词库,所述词库包括字词及其相应的用户累积词频。本发明提出了分布式的架构,从各个用户的个性字词中分析获得具有普遍意义的新词,从用户输入的角度提供解决方案,可以简单方便的获取比较准确的、具有普遍意义的新词。

Description

一种获取新词的方法、装置以及一种输入法系统
技术领域
本发明涉及互联网信息处理领域,特别是涉及一种获取新词的方法、新词获取系统、新词获取装置以及一种输入法系统。
背景技术
互联网的出现在很大程度上是对语言文字发展的一大革命,文字内容的剧增,崭新的内容的出现都使得语言文字经历了一次大的变革。人们不仅仅看报纸杂志上面的文章,更多的会阅读互联网上的文章。随着时间的推移,互联网上的文字内容越来越丰富,已经是传统报纸杂志的文字信息所不能比拟的了。而且,随着信息传播的加速,新的字词以超乎寻常的速度在互联网上传播,短时间内就会有大量的新词出现。以前,个人在报纸杂志上发表文章很困难,而进入互联网时代,每个人都可以在网络上发表自己的看法,输入的文字也会越来越个性化,随着互联网用户的不断增多,个人的文章文字也不断增多,个性化的新的字词也不断的涌现出来。例如,“互联网”在若干年以前不是一个词,但现在它却作为一个词在广泛地使用。
由于在很多语言处理技术中,词是最基本的分析元素,因此需要及时有效的获取新出现的词,以保证语言处理技术的准确性。例如,具有不同属性的词汇表是自然语言理解、机器翻译、自动撰写摘要等的基础。为了检索信息,总是用词作为搜索单位来减少检索结果的冗余。在语音识别中,也通常把词作为最低层次的语言信息,并基于词建立语言模型,以解决单字层次上的声觉不确定性。
但是由于新词不断出现,并且分散在庞杂的语料库中,很难及时有效的将新词分辨出来。现有技术一般采用由人工收集新词,加入到现有词库中的方式。
例如,新词由搜索网站的管理者人工收集,然后加入该网站使用的定制词库;或者由词库开发者人工收集,然后归入下一代使用的系统词典中(通常可以用于输入法等领域);或者设置一公共词库(例如,紫光),然后由网友或者其他公众人工累积收集新词,加入到该公共词库中,可以集合大量人工的力量。但是上述的这些方式,都非常耗费时间、工作繁重、劳动密集、效率低下。因此,人们迫切需要一种能够从庞杂的语言使用中及时有效获取新词的方法。
发明内容
本发明所要解决的技术问题是提供一种获取新词的方法和系统,可以简单方便、及时有效的获取用户经常使用的一些新词;并且可以有效的去除干扰词汇,提供比较准确的新词输出。
本发明的另一目的在于,提供一种输入法系统,可以简单方便、及时有效的自动获取该用户的个性字词,通过收集多个用户的个性字词即可获取新词。
本发明的另一目的在于,还提供一种新词获取装置,可以高效率的提供比较准确的新词输出。
本发明的另一目的还在于提供一种词库生成方法和词库生成装置,可以高效率的提供比较准确的词库或者新词库。
为解决上述技术问题,本发明提供了一种获取新词的方法,包括以下步骤:
在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;比较用户所选字词与现有字词,根据比对结果获取用户个性字词;收集各个用户的个性字词;根据所述个性字词获得新词。
优选的,还可以在用户输入过程中,记录用户词频,所述用户词频为用户输入该字词的频率信息。
其中,所述比较可以为:记录用户所选字词至用户词库,输入法系统词库中存储现有字词,比较用户词库与输入法系统词库;或者直接比较用户每次所选字词与现有字词。
其中,可以通过以下步骤实现用户个性字词的获取:判断用户所选字词在现有字词中是否存在;如果不存在,则确定该字词为用户个性字词。
也可以通过以下步骤实现用户个性字词的获取:判断用户所选字词在现有字词中是否存在;如果不存在,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词。
还可以通过以下步骤实现用户个性字词的获取:判断用户所选字词在现有字词中是否存在;如果不存在,则确定该字词为用户个性字词;如果存在,则进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
优选的,可以通过以下步骤实现用户个性字词的获取:判断用户所选字词在现有字词中是否存在;如果不存在,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词;如果存在,则进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
优选的,所述的获取新词方法,还包括:统计所述个性字词在预置的互联网页面数据库中出现的次数;如果所述个性字词的出现次数大于或者等于预置阈值,则将该字词作为新词输出。其中,通过以下步骤获得预置的互联网页面数据库:对互联网页面进行权重赋值;将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。
所述的获取新词方法中的所述收集可以为:输入法用户计算设备实时或者定时的将用户的个性字词发送至字词收集计算设备中。
优选的,所述的获取新词方法,还包括:根据所述获得的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
本发明还公开了一种获取新词的方法,包括:在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;收集各个用户的所选字词;比较用户所选字词与现有字词,根据比对结果获取用户个性字词;根据所述个性字词获得新词。
本发明还公开了一种基于输入法的新词获取系统,包括:字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;字词比对单元,与字词提取单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;收集单元,用于收集各个用户的个性字词;新词获取单元,用于根据所述个性字词获取新词.
本发明还公开了另一种基于输入法的新词获取系统,包括:字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;收集单元,用于收集各个用户的所选字词;字词比对单元,与收集单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;新词获取单元,用于根据所述个性字词获取新词。
本发明还公开了一种输入法系统,包括输入接口单元、显示单元以及系统词库,还包括:字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;字词比对单元,与字词提取单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词。
其中,所述输入法系统的输入接口单元、显示单元以及系统词库可以位于同一计算设备中;或者所述输入法系统的输入接口单元、显示单元位于第一计算设备中,系统词库位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备中获取相应信息,在第一计算设备显示相应字符。
所述的输入法系统,还可以包括:通信单元,用于发送所述个性字词。
所述的输入法系统,还可以包括:用户词库,用于存储用户所选字词。
所述的输入法系统,还可以包括:词频记录单元,与输入法系统相连,用于在用户输入过程中,记录用户词频,所述用户词频为用户输入字词的频率信息。
其中,所述字词比对单元可以包括:第一比对子单元,用于判断用户所选字词在现有字词中是否存在;如果存在,则输出该字词至第三比对子单元,如果不存在,则输出该字词至第二比对子单元;第二比对子单元,用于当用户所选字词在现有字词中不存在时,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词;第三比对子单元,用于当用户所选字词在现有字词中存在时,进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
本发明还公开了一种新词获取装置,包括:字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;字词比对单元,与字词提取单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;个性字词收集单元,用于收集各用户的个性字词;统计单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数;新词确定单元,与统计单元相连,用于判断所述个性字词的出现次数是否大于或者等于预置阈值,如果是,则将该字词作为新词输出。
其中,所述个性字词收集单元具体用于,接收用户计算设备实时或者定时发送的用户个性字词.
所述的新词获取装置,还包括:词库生成单元,用于根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
所述的新词获取装置,还包括:互联网页面数据库生成单元,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
本发明还公开了一种新词获取装置,包括:字词收集单元,用于收集个用户端所采集的各用户的所选字词;所述用户的所选字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;字词比对单元,与字词收集单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;新词获取单元,用于根据所述个性字词获取新词。
优选的,所述新词获取单元包括:统计子单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数;新词确定子单元,与统计子单元相连,用于判断所述个性字词的出现次数是否大于或者等于预置阈值,如果是,则将该字词作为新词输出。
所述字词收集单元还用于收集用户所选字词相应的用户词频;所述的新词获取装置,还包括:统计子单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;权重词频确定子单元,用于对所述新词的用户词频和互联网词频进行权重修正后求和,得到该新词的权重词频;新词确定子单元,用于判断所述个性字词的权重词频是否大于或者等于预置阈值,如果是,则将该个性字词作为新词输出。
本发明还公开了一种词库生成方法,包括:收集各用户的输入行为信息,所述输入行为信息包括用户在利用输入法进行字词输入的过程中的所选字词以及该字词相应的用户词频;所述所选字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;对字词相应的各用户词频进行权重修正,计算各字词的用户累积词频;生成词库,所述词库包括字词及其相应的用户累积词频;比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词。
所述的词库生成方法,还包括:去除用户累积词频小于或等于一定阈值的字词。
所述的词库生成方法,还包括:根据所述用户个性字词生成个性字词库。
或者,所述的词库生成方法,还包括:统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;对所述个性字词的用户累积词频和互联网词频进行权重修正后求和,得到该新词的权重词频;如果所述个性字词的权重词频大于或者等于预置阈值,则将该字词作为新词输出;根据所述输出的新词生成新词库,所述新词库包括新词及其相应的权重词频。
本发明还公开了一种词库生成装置,包括:收集单元,用于收集各用户的输入行为信息,所述输入行为信息包括用户输入过程中的所选字词以及该字词相应的用户词频;所述所选字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;词频计算单元,用于对字词相应的各用户词频进行权重修正,计算各字词的累积词频;词库生成单元,用于生成词库,所述词库包括字词及其相应的累积词频;个性字词确定单元,用于比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词。
所述的词库生成装置,还包括:所述词库生成单元根据所述用户个性字词生成个性字词库.
所述的词库生成装置,还包括:统计单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;权重词频确定单元,用于对所述个性字词的用户累积词频和互联网词频进行权重修正后求和,得到该字词的权重词频;新词确定单元,如果所述个性字词的权重词频大于或者等于预置阈值,则将该字词作为新词输出;所述词库生成单元根据所述输出的新词生成新词库,所述新词库包括新词及其相应的权重词频。
与现有技术相比,本发明具有以下优点:首先,本发明提出了分布式的架构,包括多个用户端和一个收集端,通过收集多个用户端的用户输入行为信息,从各个用户的个性字词中分析获得具有普遍意义的新词;由于互联网信息或者语料库中的新词也是由各个用户的使用行为而产生的,所以本发明从用户输入的角度提供解决方案,从而简单方便的获取比较准确的、具有普遍意义的新词。
其次,本发明还进一步收集了用户输入行为中的用户词频信息,从而可以去除一些干扰词汇,例如用户输入错误等情况;还可以找出一些具有社会学意义的新词,例如通过用户词频获取一些原来不常用,但是现在很常用的一些词汇,即应用范围或者应用环境发生了改变的新词。通过上述分析,可以获取比较准确的新词。
本发明还可以进一步对收集的用户输入行为信息,放置到一精选互联网页面数据库中,对其出现次数进行统计,去除频率较低的词汇,从而获取更为准确的新词,即找出真正属于语言意义上的新词,而去除不具有普遍意义的词汇或者错误词汇。
本发明还可以将得到的新词编排形成新词库或者新版的全词库,从而提供给输入法使用,可以提高用户输入时首选词的命中率和输入速度,并可以提高候选词排序的合理性,方便用户更快更准确的输入新词,不需要经过繁琐的候选词选择过程就可以在第一个或者第一页候选词中得到希望输入的字词。还可以将新词库或者新版的全词库提供给搜索引擎使用,当用户的查询关键词字符串中包括新词时,可以提高搜索结果的精确度和覆盖度。
附图说明
图1是本发明实施例1的步骤流程图;
图2是本发明实施例2的步骤流程图;
图3是本发明实施例3的步骤流程图;
图4是从收集的用户个性字词获取新词的步骤流程图;
图5是本发明一种输入法系统的实施例结构框图;
图6是本发明一种新词获取装置的结构框图;
图7是本发明另一种新词获取装置的结构框图;
图8是本发明一种词库生成方法的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明所述获取新词的方法可以应用于各种通过输入法编码输入的语言,例如,中文、日文、韩文等,因为编码输入时,输入法系统为使用者在信息输入过程中提供候选词,用户选择其需要的字词,从而收集该用户的所选字词作为获取新词的信息来源.由于本发明在上述几种语言文字中的应用流程都是相似的,所以为了方便说明,下面仅仅对本发明应用在中文的情况进行说明.
参照图1,是本发明实施例1的步骤流程图,包括以下步骤:
步骤101、在用户输入过程中,获取用户选择的字词。
对于需要通过编码输入文字的语言而言,用户需要输入编码字符串,并在候选词中选择需要的字词,从而完成输入。步骤101就是记录用户的输入行为信息之一——用户所选字词。所述编码字符串可以为拼音码也可以为字形码,即本发明可以适用与各种输入法。
用户所选字词中会包括一些该用户的个性字词,例如,该用户需要经常输入“阈值”、“九部委”或者某个人名等词汇,但是输入法原有的词库中并没有这样的词,所以在候选词中无法直接显示给用户,用户需要对每个字进行选择从而得到需要的个性词汇。再例如,用户还可以通过输入法提供的人工造词功能,创造一些原有词库中没有但是该用户需要使用的新字新词,这样用户在输入过程中才可以选择到所需的个性字词。本发明能够从用户所选择输入的字词中挑选出该用户的个性字词。
步骤102、比较用户所选字词与现有字词,根据比对结果获取用户个性字词。
所述比较可以当每次用户确定所选字词时就进行一次,比较该所选字词和现有字词,如果在预置的判断规则内,则确定为用户个性字词并记录,可以将所述用户个性字词记录至系统词库或者记录至用户个性字词库;此时,步骤101中的用户所选字词就可以仅仅以缓存的形式记录即可。
如果步骤101将用户所选字词先记录至用户词库,输入法系统词库用于存储现有字词,则步骤102所述比较也可以每隔一定时间比较用户词库与输入法系统词库,将确定的用户个性字词记录至用户个性字词库或者在用户词库中加以标记。这种方式可以减少用户输入过程中的数据计算量,从而避免对用户输入行为的提取而影响用户的输入行为本身。
所述判断用户个性字词的预置规则,本领域技术人员可以根据需要设定即可。例如,最简单的一种方式,通过以下步骤实现用户个性字词的获取:判断用户所选字词在现有字词中是否存在;如果不存在,则确定该字词为用户个性字词。
步骤103、收集各个用户的个性字词。
所述收集可以为:输入法用户计算设备实时或者定时的将用户的个性字词发送至字词收集计算设备中,即优选的,输入法计算设备具有一个自动发送的模块。优选的,所述收集计算设备以服务器的形式存在。
所述收集还可以为输入法用户定时或者不定时的将自己的个性字词发送至收集端,即所述发送由用户人工发起,例如,各用户将自己的个性字词发送至统一的邮件地址或者统一的服务器中实现收集。
当然,如果用户将个性字词存储在用户词库或者系统词库的情况时,可以将该存储有用户个性字词的词库实时或者定时的发送至收集计算设备,例如,各个用户通过定时或者不定时的将词库在服务器备份即可实现收集。
再者,对于网络输入法(仅仅提供给用户输入接口和显示接口,通过连接服务器完成整个输入过程)而言,其用户个性字词的收集就更简单了,因为此时用户使用的输入法系统本身就是一个服务器,可以供多个用户使用,在使用过程中就可以收集各用户的输入行为信息了。
实际上,本发明采用任何能够实现信息收集的方式都是可行的,不再一一列举说明。
步骤104、根据所述个性字词获得新词。
本步骤可以通过在所有收集的用户个性字词中去除重复的字词,从而获得新词。本步骤还可以采用其他过滤、简化的方式获得新词。
优选的,本发明可以通过以下步骤从收集的用户个性字词获取新词:统计所述个性字词在预置的互联网页面数据库中出现的次数;如果所述个性字词的出现次数大于或者等于预置阈值,则将该字词作为新词输出。
参照图2,是本发明实施例2的步骤流程图,包括以下步骤:
步骤201、在用户输入过程中,获取用户选择的字词;
步骤202、收集各个用户的所选字词;
优选的,用户所选字词被存储在用户词库中或者存储在输入法系统词库中(非只读),步骤202收集各个用户的用户词库或者系统词库中的用户所选字词即可。所述收集方式可以采用前述的各种方式,在此不再赘述。
步骤203、比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
步骤204、根据所述个性字词获得新词。
实施例2与实施例1的构思基本相似,主要区别在于,先收集多个用户的所选字词,再统一进行比对,根据比对结果获取用户个性字词;该方式可以减少比对计算的次数,并可以减少本地输入法系统的负担,但是由于汇集了大量用户所选字词之后才进行比对,会增加服务器的系统负担。对于实施例2与实施例1,本领域技术人员根据需要选择使用即可。
参照图3,是本发明实施例3的步骤流程图,实施例3在实施例1的基础上的进一步优化,包括以下步骤:
步骤301、在用户输入过程中,记录用户所选字词及其用户词频至用户词库;
在用户端建立用户词库,用于记录用户所选字词及其用户词频,所述用户词频为用户输入该字词的频率信息。本步骤可以完整的记录用户的输入行为,而不用考虑该字词是否为新词。
当然,还可以不设置用户词库,而将输入法系统词库设置为可修改模式,可以直接将用户所选字词及其用户词频记录至系统词库。
步骤302、比较用户词库和系统词库,根据比对结果获取用户个性字词;
根据比对结果获取用户个性字词可以通过以下多种方式实现,但并不限于以下几种方式。
第一种:判断用户所选字词在现有字词中是否存在;如果不存在,则确定该字词为用户个性字词。
第二种:判断用户所选字词在现有字词中是否存在;如果不存在,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词.如果存在,则可以确定为非个性字词.
第三种:判断用户所选字词在现有字词中是否存在;如果不存在,则确定该字词为用户个性字词;如果存在,则进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。其中用户词频用于进一步判断个性字词,可以获取一些原来不常用,但是现在很常用的一些词汇,即应用范围或者应用环境发生了改变的新词。上述方法中采用的比值参数是一种优选例,当然,也可以采用其他可行的参数进行评价。
第四种,判断用户所选字词在现有字词中是否存在;如果不存在,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词;如果存在,则进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。本方式为本发明的一种优选例,可以获得较为精确的用户个性字词。
步骤303、收集各个用户的个性字词。
步骤304、根据所述个性字词获得新词。
本步骤可以通过在所有收集的用户个性字词中去除重复的字词,从而获得新词。本步骤还可以采用其他过滤、简化的方式获得新词。后面将通过图4对此进行详述。
步骤305、根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
本步骤用于将步骤304获取的新词组织排版形成词库,从而可以用于输入法系统或者搜索领域。
例如,用于更新普通输入法:设置包含系统词库的输入法系统位于第一计算设备中,得到的新词库或者新版的全词库位于第二计算设备中;需要更新词库的输入法系统通过第一计算设备连接所述第二计算设备完成系统词库的更新。
所述存储得到的新词库或者新版的全词库的第二计算设备可以通过服务器的形式存在于网络中,向其他任何需要输入法新词信息的客户端程序提供词库更新服务。当然,并不需要一定通过固定服务器的形式出现,也可以存在于某个本地计算设备中,通过P2P(点对点)技术向其他终端的任何需要输入法新词信息的客户端程序提供词库更新服务。
上述更新的实施例中,所述更新的方式可以为:当输入法系统更新时,同时更新所述系统词库;或者,由服务器主动推送的方式进行系统词库的在线更新;或者,由用户发起请求,服务器根据请求返回数据进行系统词库的更新。当然,也可以采用移动存储器更新的方式或者版本更新的方式。总之,可以采用各种数据更新的方式,本发明对此并不加以限定,本领域技术人员可以根据需要选择即可。
再例如,用于更新网络输入法:设置输入法系统中用于接收用户输入信息和显示相应字符的单元位于第一计算设备中;得到的新词库或者新版的全词库为输入法系统的系统词库,所述系统词库位于第二计算设备中;所述输入法系统根据用户输入的信息,从位于第二计算设备中的系统词库获取相应信息,在第一计算设备显示相应字符,完成文字输入.
上例中可以直接将根据本发明新词提取方法获得的新词库或者新版的全词库直接作为输入法系统的系统词库,则可以实现在线词库使用,而不需要更新操作了。其中,将输入法系统分为了两部分,接收和显示单元位于第一计算设备,词库信息则位于第二计算设备,可以完美的实现输入法的在线应用;当然,对于输入法系统需要的编码匹配过程可以根据需要任意设置在某个计算设备中均可。
优选的,本发明还可以应用在搜索领域,当用户的查询关键词字符串中包括新词时,可以根据通过本发明提取新词方法得到的词库对用户的查询关键词字符串进行准确分词,然后根据分词结果进行搜索,可以提高搜索结果的精确度和覆盖度。
优选的,参照图4,本发明可以通过以下步骤从收集的用户个性字词获取新词:
步骤401、去除重复的用户个性字词;
步骤402、对互联网页面进行权重赋值;将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库,从而得到预置的互联网页面数据库;
步骤403、统计所述个性字词在预置的互联网页面数据库中出现的次数;如果所述个性字词的出现次数大于或者等于预置阈值,则将该字词作为新词输出。
其中,步骤402为可选步骤,其目的是为了获得一个精选的互联网页面数据库,从而可以保证对新词筛选的准确性。当然,也可以采用其他方法形成预置的互联网页面数据库。
在权重赋予的步骤402中,根据网页形成的时间和网页的类型赋予相应的权重值是一个比较重要的情形。因为对于词频统计而言,网页时间对其的影响非常重要,所以网页时间对权重值的影响也就较大,距离词频统计的时间点越远,则权重值就越低,如果时间差大于一定的值,则可以赋予该网页较低的权重值,甚至排除在词频统计之外。其次网页类型对词频统计的影响也很大,所述网页类型一般是指门户网站、论坛或者其他一些已经确定的网页,这些网页的权重值就较高,因为这些网页中参与者较多、信息更新较快、能够较好的反应词频的最新变化趋势。对于网页类型的判定,可以通过设定一个规则库,该库中存储了一些网页的URL地址,从而确定这些URL的网页是对词频统计比较重要的,在这些网页上出现的字词会是优选统计的,则对该网页赋予更大的权重值。
其次,本发明还可以通过赋予较低权重值的方式去除一些重复网页、黄色网页和垃圾网页,从而可以进一步保证新词验证的准确性。
再者,由于要想得到的结果更准确,就需要统计的词汇尽量都是用户的“输入行为”,因此本发明还可以对以上精选出来的页面进行再处理,例如,去除页面的冗余信息等,所述页面冗余信息一般都是一些无效信息;如果不去除将会增加新词提取的计算量,以及导致统计出来的词频不客观,结果不准确。
相应的,本发明还提出了两个基于输入法的新词获取系统,由于该系统用于完成前述的方法,所以下面仅仅进行简单介绍,未详尽之处可以参见前述相关部分。
一种基于输入法的新词获取系统,包括:
字词提取单元,与输入法系统相连,用于在用户输入过程中,获取用户选择的字词;字词比对单元,与字词提取单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;收集单元,用于收集各个用户的个性字词;新词获取单元,用于根据所述个性字词获取新词.
一种基于输入法的新词获取系统,包括:
字词提取单元,与输入法系统相连,用于在用户输入过程中,获取用户选择的字词;收集单元,用于收集各个用户的所选字词;字词比对单元,与收集单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;新词获取单元,用于根据所述个性字词获取新词。
参照图5,本发明还要求保护一种输入法系统,包括输入接口单元501、显示单元502以及系统词库503,还包括:
字词提取单元504,与输入法系统相连,用于在用户输入过程中,获取用户选择的字词;
字词比对单元505,与字词提取单元504相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词。所述用户个性字词可以存储在用户词库506中也可以存储在系统词库503中,加以标记即可;或者还可以存储至一专门词库。
即上述输入法系统除了用于普通的字词输入,还可以用于提取用户的个性字词。上述输入法系统可以为普通输入法系统,例如,所述输入法系统的输入接口单元、显示单元以及系统词库位于同一计算设备中,该输入法系统根据用户输入的编码信息通过本地查询匹配在本地显示相应字符。上述输入法系统也可以为网络输入法系统,例如,所述输入法系统的输入接口单元、显示单元位于第一计算设备中,系统词库位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备中获取相应信息,在第一计算设备显示相应字符。
所述的输入法系统,还可以包括:用户词库506,用于存储用户所选字词;通信单元507,用于发送所述个性字词。各个用户的输入法系统可以将该用户的个性字词发送至统一的收集计算设备中,从而达到收集大量用户输入行为信息的目的,进而分析得到符合大众需要、符合语言学意义的新词。
为了进一步提高用户个性字词的获取准确度,所述的输入法系统,还可以包括:
词频记录单元508,与输入法系统相连,用于在用户输入过程中,记录用户词频,所述用户词频为用户输入该字词的频率信息。此时,所述通信单元507,还可以用于发送个性字词相关的用户词频信息。
优选的,所述字词比对单元505则可以进一步包括:
第一比对子单元5051,用于判断用户所选字词在现有字词中是否存在;如果存在,则输出该字词至第三比对子单元,如果不存在,则输出该字词至第二比对子单元;
第二比对子单元5052,用于当用户所选字词在现有字词中不存在时,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词。
第三比对子单元5053,用于当用户所选字词在现有字词中存在时,进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
上述的字词比对单元505是本发明的一优选实施例,当然,也可以采用其他的比对规则,则所述字词比对单元505可以包括其他的子单元,本发明对此并不一一举例说明.
上述的输入法系统中的输入接口单元501最重要的是可以用于提供使用者进行信息输入、字词选取的动作;还可以用于进行各种模式的切换工作,例如:输入语言的切换(如:简体繁体、中文英文的切换)、输入模式的切换(如:单字输入、词输入、句子输入的切换)、输入状态的切换(如:文字、标点符号、特殊符号的切换)等等。显示单元502以及系统词库503都为本领域技术人员所熟知之信息,在此不再详述。
参照图6,本发明还提供了一种新词获取装置,包括:
个性字词收集单元601,用于收集各用户的个性字词;所述用户的个性字词可以通过输入法获取,自动发送至个性字词收集单元;也可以由用户自行设定或者整理,发送至个性字词收集单元;或者各用户将其个性字词汇集至一固定的网络空间,所述个性字词收集单元从该网络空间中获取各个用户的个性字词。即本实施例中的用户个性字词并不一定是通过用户输入行为获取的,也可以是用户自行设定或者整理的。
统计单元602,用于统计所述个性字词在预置的互联网页面数据库中出现的次数;
新词确定单元603,与统计单元602相连,用于判断所述个性字词的出现次数是否大于或者等于预置阈值,如果是,则将该字词作为新词输出。
上述新词获取装置可以根据所述收集的各用户的个性字词,通过在互联网信息中的验证,从而获得较为精确的新词输出。所述各用户的个性字词可以由用户的输入行为自动获取,也可以由用户自行设定或者整理。
上述新词获取装置还可以包括:词库生成单元604,用于根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。所述新词库或者新版的全词库可以用于输入法系统词库的更新或者搜索引擎分词,从而提供用户的输入准确率和搜索结果的准确率。
优选的,所述的新词获取装置,还可以包括:互联网页面数据库生成单元605,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
参照图7,本发明还公开了另一种新词获取装置,包括:
字词收集单元701,用于收集各用户的所选字词;
所述字词收集单元701可以直接与现有的输入法系统相连,实时收集各用户的所选字词,例如,网络输入法。所述字词收集单元701还可以通过接收各用户的输入法系统实时或者定时发送的用户所选字词,所述用户所选字词由该用户的输入法系统提取。所述字词收集单元701还可以通过接收各用户的输入法系统发送的用户词库或者系统词库达到收集用户所选字词的目的,其中,所述用户所选字词由该用户的输入法系统提取并存储至用户词库或者系统词库中。
字词比对单元702,与字词收集单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
新词获取单元703,用于根据所述个性字词获取新词。
优选的,所述字词比对单元可702以进一步包括:
第一比对子单元7021,用于判断用户所选字词在现有字词中是否存在;如果存在,则输出该字词至第三比对子单元,如果不存在,则输出该字词至第二比对子单元;
第二比对单元7022,用于当用户所选字词在现有字词中不存在时,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词。
第三比对子单元7023,用于当用户所选字词在现有字词中存在时,进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
优选的,所述新词获取单元703可以进一步包括:
统计子单元7031,用于统计所述个性字词在预置的互联网页面数据库中出现的次数,从而获得该字词的互联网词频;
新词确定子单元7032,与统计子单元相连,用于判断所述互联网词频是否大于或者等于预置阈值,如果是,则将该字词作为新词输出。
优选的,所述新词获取装置还可以包括:
词库生成单元704,用于根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
所述词库生成单元704生成的词库中还可以包括字词相应的互联网词频。
互联网页面数据库生成单元705,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
由于字词收集单元可以在收集用户所选字词的同时收集该字词的用户词频,所以更进一步,所述词库生成单元704生成的词库中还可以包括字词相应的用户词频。为了保证所述词库中一个字词对应一个词频,则可以对所述用户词频和互联网词频进行权重修正后叠加求和,赋予用户个性字词一个权重词频。然后根据该权重词频进行过滤去除等步骤,例如,判断所述个性字词的权重词频是否大于或者等于预置阈值,如果是,则将该字词作为新词输出。
由于某个字词的用户词频的增加反映到互联网的词频统计中的增加,需要一些时间,甚至较长的时间,而权重词频可以兼顾二者,得到较为准确的新词及其词频,更加有利于增加用户的输入体验。
本发明还公开了一种词库生成方法,参照图8,图8a和图8b分别描述了该词库生成方法的两种实施例,具体详述如下:
图8a所示的词库生成方法包括以下步骤:
步骤801a,步骤收集各用户的输入行为信息,所述输入行为信息包括用户输入过程中的所选字词以及该字词相应的用户词频;所述收集可以为本发明前述提及的各种方式。
步骤802a,对字词相应的各用户词频进行权重修正,计算各字词的用户累积词频;所述权重修正可以通过对某一字词相应的各用户词频进行分析后完成,例如,首先对该字词相应的各用户词频进行分析,找到分布趋势,通过某个词频值出现的概率或者该词频值距离平均范围的大小对其进行修正.上述修正后计算得到的用户累积词频,可以去除一些用户的偶然行为或者恶意行为,得到比价客观、准确的用户累积词频,进而保证词库的准确性.
步骤803a,去除用户累积词频小于或等于一定阈值的字词。本步骤为一优选步骤,用于进一步提高收入词库中的字词的普遍性。
步骤804a,生成词库,所述词库包括字词及其相应的用户累积词频。
由于输入法的用户非常多,通过对大量输入法用户的输入行为信息的收集,就可以获得具有普遍意义的词库。该词库可以直接提供给输入法系统作为系统词库使用;也可以作为用户词库由用户自行导入,并与系统词库配合使用。
优选的,图8a所示的词库生成方法还可以进一步包括以下步骤:
步骤805a,比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词;其中所述的预置规则可以由本领域技术人员根据需要设定即可,例如,本发明前面描述的步骤302中根据比对结果获取用户个性字词的四种方式。
步骤806a,根据所述用户个性字词生成个性字词库。
图8b所示的词库生成方法包括以下步骤:
步骤801b,收集各用户的输入行为信息,所述输入行为信息包括用户输入过程中的所选字词以及该字词相应的用户词频。
步骤802b,对字词相应的各用户词频进行权重修正,计算各字词的用户累积词频。
步骤803b,去除用户累积词频小于或等于一定阈值的字词。
步骤804b,生成词库,所述词库包括字词及其相应的用户累积词频。
步骤805b,比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词;
步骤806b,统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;
步骤807b,对所述个性字词的用户累积词频和互联网词频进行权重修正后求和,得到该个性字词的权重词频;如果所述个性字词的权重词频大于或者等于预置阈值,则将该字词作为新词输出;
步骤808b,根据所述输出的新词生成新词库,所述新词库包括新词及其相应的权重词频。
本发明还公开了一种词库生成装置,包括以下部件:
收集单元,用于收集各用户的输入行为信息,所述输入行为信息包括用户输入过程中的所选字词以及该字词相应的用户词频;
词频计算单元,用于对字词相应的各用户词频进行权重修正,计算各字词的累积词频;
词库生成单元,用于生成词库,所述词库包括字词及其相应的累积词频。
所述的词库生成装置还可以包括:个性字词确定单元,用于比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词;所述词库生成单元根据所述用户个性字词生成个性字词库。
或者,所述的词库生成装置还可以包括:
个性字词确定单元,用于比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词;
统计单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;
权重词频确定单元,用于对所述个性字词的用户累积词频和互联网词频进行权重修正后求和,得到该字词的权重词频;
新词确定单元,如果所述个性字词的权重词频大于或者等于预置阈值,则将该字词作为新词输出;
所述词库生成单元根据所述输出的新词生成新词库,所述新词库包括新词及其相应的权重词频。
由于本发明使用了基于互联网信息的词频统计技术,并以用户输入行为信息作为新词的来源,可以方便快捷的得到了大量的各个用户频繁使用的新词,这些新词经过汇总筛选,又不断的提供给输入法用户使用,使得这些用户在使用过程中能够时刻跟踪互联网信息的变化,不断的能够输入新词而又不用每次输入新词的时候都要经过繁琐的选词过程,使得新词也能够成为用户的首选词,提高用户输入新词时的首选词命中率,并可以提高候选词排序的合理性。
由于本发明篇幅有限,在方法的描述部分较为详细,系统部分的描述未详尽之处,请参见前述相关部分。
以上对本发明所提供的一种获取新词的方法、新词获取系统、新词获取装置以及一种输入法系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (34)

1.一种获取新词的方法,其特征在于,包括:
在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
收集各个用户的个性字词;
根据所述个性字词获得新词。
2.如权利要求1所述的方法,其特征在于,还包括:
在用户输入过程中,记录用户词频,所述用户词频为用户输入该字词的频率信息。
3.如权利要求1所述的方法,其特征在于,所述比较为:
记录用户所选字词至用户词库,输入法系统词库中存储现有字词,比较用户词库与输入法系统词库;
或者直接比较用户每次所选字词与现有字词。
4.如权利要求1所述的方法,其特征在于,通过以下步骤实现用户个性字词的获取:
判断用户所选字词在现有字词中是否存在;
如果不存在,则确定该字词为用户个性字词。
5.如权利要求2所述的方法,其特征在于,通过以下步骤实现用户个性字词的获取:
判断用户所选字词在现有字词中是否存在;
如果不存在,进一步判断该字词相应的用户词频;
如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词。
6.如权利要求2所述的方法,其特征在于,通过以下步骤实现用户个性字词的获取:
判断用户所选字词在现有字词中是否存在;
如果不存在,则确定该字词为用户个性字词;
如果存在,则进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;
如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
7.如权利要求2所述的方法,其特征在于,通过以下步骤实现用户个性字词的获取:
判断用户所选字词在现有字词中是否存在;
如果不存在,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词;
如果存在,则进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
8.如权利要求1所述的方法,其特征在于,还包括:
统计所述个性字词在预置的互联网页面数据库中出现的次数;
如果所述个性字词的出现次数大于或者等于预置阈值,则将该字词作为新词输出。
9.如权利要求8所述的方法,其特征在于,通过以下步骤获得预置的互联网页面数据库:
对互联网页面进行权重赋值;
将权重值大于或者等于预置阈值的互联网页面存储至互联网页面数据库。
10.如权利要求1所述的方法,其特征在于,所述收集为:输入法用户计算设备实时或者定时的将用户的个性字词发送至字词收集计算设备中。
11.如权利要求1所述的方法,其特征在于,还包括:根据所述获得的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
12.一种获取新词的方法,其特征在于,包括:
在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
收集各个用户的所选字词;
比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
根据所述个性字词获得新词。
13.一种基于输入法的新词获取系统,其特征在于,包括:
字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
字词比对单元,与字词提取单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
收集单元,用于收集各个用户的个性字词;
新词获取单元,用于根据所述个性字词获取新词。
14.一种基于输入法的新词获取系统,其特征在于,包括:
字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
收集单元,用于收集各个用户的所选字词;
字词比对单元,与收集单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
新词获取单元,用于根据所述个性字词获取新词。
15.一种输入法系统,包括输入接口单元、显示单元以及系统词库,其特征在于,还包括:
字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
字词比对单元,与字词提取单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词。
16.如权利要求15所述的输入法系统,其特征在于,
所述输入法系统的输入接口单元、显示单元以及系统词库位于同一计算设备中;
或者所述输入法系统的输入接口单元、显示单元位于第一计算设备中,系统词库位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备中获取相应信息,在第一计算设备显示相应字符。
17.如权利要求15所述的输入法系统,其特征在于,还包括:
通信单元,用于发送所述个性字词。
18.如权利要求15所述的输入法系统,其特征在于,还包括:
用户词库,用于存储用户所选字词。
19.如权利要求15所述的输入法系统,其特征在于,还包括:
词频记录单元,与输入法系统相连,用于在用户输入过程中,记录用户词频,所述用户词频为用户输入字词的频率信息。
20.如权利要求19所述的输入法系统,其特征在于,所述字词比对单元包括:
第一比对子单元,用于判断用户所选字词在现有字词中是否存在;如果存在,则输出该字词至第三比对子单元,如果不存在,则输出该字词至第二比对子单元;
第二比对子单元,用于当用户所选字词在现有字词中不存在时,进一步判断该字词相应的用户词频;如果该字词相应的用户词频大于或者等于预定阈值,则确定该字词为个性字词;
第三比对子单元,用于当用户所选字词在现有字词中存在时,进一步对比该字词的用户词频和系统词频,所述系统词频为在输入法系统词库中预置的现有字词相应的词频信息;如果用户词频与系统词频的比值大于或者等于预定阈值,则确定该字词为个性字词。
21.一种新词获取装置,其特征在于,包括:
字词提取单元,与输入法系统相连,用于在用户利用输入法进行字词输入的过程中,获取用户所选择的字词;所述用户所选择的字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
字词比对单元,与字词提取单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
个性字词收集单元,用于收集各用户的个性字词;
统计单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数;
新词确定单元,与统计单元相连,用于判断所述个性字词的出现次数是否大于或者等于预置阈值,如果是,则将该字词作为新词输出。
22.如权利要求21所述的新词获取装置,其特征在于,所述个性字词收集单元具体用于,接收用户计算设备实时或者定时发送的用户个性字词。
23.如权利要求21所述的新词获取装置,其特征在于,还包括:
词库生成单元,用于根据输出的新词生成新词库或者将得到的新词添加至原有词库,得到新词库或者新版的全词库。
24.如权利要求21所述的新词获取装置,其特征在于,还包括:
互联网页面数据库生成单元,用于对互联网页面进行权重赋值;并将权重值大于或者等于预置阀值的互联网页面存储至互联网页面数据库。
25.一种新词获取装置,其特征在于,包括:
字词收集单元,用于收集各用户端所采集的各用户的所选字词;所述用户的所选字词包括在用户利用输入法进行字词输入的过程中,用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
字词比对单元,与字词收集单元相连,用于比较用户所选字词与现有字词,根据比对结果获取用户个性字词;
新词获取单元,用于根据所述个性字词获取新词。
26.如权利要求25所述的新词获取装置,其特征在于,所述新词获取单元包括:
统计子单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数;
新词确定子单元,与统计子单元相连,用于判断所述个性字词的出现次数是否大于或者等于预置阈值,如果是,则将该字词作为新词输出。
27.如权利要求25所述的新词获取装置,其特征在于,还包括:
所述字词收集单元还用于收集用户所选字词相应的用户词频;
统计子单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;
权重词频确定子单元,用于对所述新词的用户词频和互联网词频进行权重修正后求和,得到该新词的权重词频;
新词确定子单元,用于判断所述个性字词的权重词频是否大于或者等于预置阈值,如果是,则将该个性字词作为新词输出。
28.一种词库生成方法,其特征在于,包括:
收集各用户的输入行为信息,所述输入行为信息包括用户在利用输入法进行字词输入的过程中的所选字词以及该字词相应的用户词频;所述所选字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
对字词相应的各用户词频进行权重修正,计算各字词的用户累积词频;
生成词库,所述词库包括字词及其相应的用户累积词频;
比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词。
29.如权利要求28所述的方法,其特征在于,还包括:
去除用户累积词频小于或等于一定阈值的字词。
30.如权利要求28所述的方法,其特征在于,还包括:
根据所述用户个性字词生成个性字词库。
31.如权利要求28所述的方法,其特征在于,还包括:
统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;
对所述个性字词的用户累积词频和互联网词频进行权重修正后求和,得到该新词的权重词频;
如果所述个性字词的权重词频大于或者等于预置阈值,则将该字词作为新词输出;
根据所述输出的新词生成新词库,所述新词库包括新词及其相应的权重词频。
32.一种词库生成装置,其特征在于,包括:
收集单元,用于收集各用户的输入行为信息,所述输入行为信息包括用户输入过程中的所选字词以及该字词相应的用户词频;所述所选字词包括用户每输入完一串编码字符串后、在候选词中选择并确定的字词;
词频计算单元,用于对字词相应的各用户词频进行权重修正,计算各字词的累积词频;
词库生成单元,用于生成词库,所述词库包括字词及其相应的累积词频;
个性字词确定单元,用于比较所述生成的词库与现有词库,根据比对结果去除不符合预置规则的字词,输出用户个性字词.
33.如权利要求32所述的装置,其特征在于,还包括:
所述词库生成单元根据所述用户个性字词生成个性字词库。
34.如权利要求32所述的装置,其特征在于,还包括:
统计单元,用于统计所述个性字词在预置的互联网页面数据库中出现的次数,得到互联网词频;
权重词频确定单元,用于对所述个性字词的用户累积词频和互联网词频进行权重修正后求和,得到该字词的权重词频;
新词确定单元,如果所述个性字词的权重词频大于或者等于预置阈值,则将该字词作为新词输出;
所述词库生成单元根据所述输出的新词生成新词库,所述新词库包括新词及其相应的权重词频。
CN200610109732A 2006-08-09 2006-08-09 一种获取新词的方法、装置以及一种输入法系统 Active CN1924858B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200610109732A CN1924858B (zh) 2006-08-09 2006-08-09 一种获取新词的方法、装置以及一种输入法系统
PCT/CN2007/070419 WO2008022581A1 (fr) 2006-08-09 2007-08-06 Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610109732A CN1924858B (zh) 2006-08-09 2006-08-09 一种获取新词的方法、装置以及一种输入法系统

Publications (2)

Publication Number Publication Date
CN1924858A CN1924858A (zh) 2007-03-07
CN1924858B true CN1924858B (zh) 2010-05-12

Family

ID=37817498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610109732A Active CN1924858B (zh) 2006-08-09 2006-08-09 一种获取新词的方法、装置以及一种输入法系统

Country Status (2)

Country Link
CN (1) CN1924858B (zh)
WO (1) WO2008022581A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398834B (zh) * 2007-09-29 2010-08-11 北京搜狗科技发展有限公司 一种针对输入信息的处理方法和装置及一种输入法系统
CN101470732B (zh) * 2007-12-26 2012-04-18 北京搜狗科技发展有限公司 一种辅助词库的生成方法和装置
CN101290632B (zh) * 2008-05-30 2011-09-14 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法系统
CN101533310A (zh) * 2009-04-02 2009-09-16 孙强国 一种拼音文字单词的输入和选择方法
CN102163198B (zh) * 2010-02-24 2014-10-22 北京搜狗科技发展有限公司 提供新词或热词的方法及系统
CN102193920B (zh) * 2010-03-04 2016-01-20 深圳市世纪光速信息技术有限公司 一种人名词库生成方法、装置及文字输入系统
CN102270048B (zh) * 2010-06-03 2016-04-20 北京搜狗科技发展有限公司 一种名词输入的方法及系统
CN102298581B (zh) * 2010-06-23 2015-11-25 深圳市腾讯计算机系统有限公司 一种输入法词库的处理方法和装置
CN102508554A (zh) * 2011-10-02 2012-06-20 上海量明科技发展有限公司 一种通信关联的输入方法、个性语库及系统
CN103324627A (zh) * 2012-03-21 2013-09-25 宇龙计算机通信科技(深圳)有限公司 终端和输入处理方法
CN102982070A (zh) * 2012-10-26 2013-03-20 北京百度网讯科技有限公司 用于输入法应用程序的词库更新方法、系统和云端服务器
CN108170294B (zh) * 2013-08-08 2021-04-16 阿里巴巴集团控股有限公司 词汇显示、字段转换方法及客户端、电子设备和计算机存储介质
WO2016058138A1 (en) * 2014-10-15 2016-04-21 Microsoft Technology Licensing, Llc Construction of lexicon for selected context
CN105069064B (zh) * 2015-07-29 2019-04-30 百度在线网络技术(北京)有限公司 词汇的获取方法及装置、推送方法及装置
KR102462365B1 (ko) * 2016-02-29 2022-11-04 삼성전자주식회사 사용자 데모그래픽 정보 및 콘텍스트 정보에 기초한 텍스트 입력 예측 방법 및 장치
CN105956158B (zh) * 2016-05-17 2019-08-09 清华大学 基于海量微博文本和用户信息的网络新词自动提取的方法
CN107544685A (zh) * 2016-06-29 2018-01-05 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106294650B (zh) * 2016-08-03 2019-08-20 北京金和网络股份有限公司 基于搜索埋点的新词挖掘方法
CN109426356B (zh) * 2017-09-01 2022-07-15 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN108733650B (zh) * 2018-05-14 2022-06-07 科大讯飞股份有限公司 个性化词获取方法及装置
CN109254972B (zh) * 2018-07-23 2022-09-13 上海法本信息技术有限公司 一种离线命令词库更新方法、终端及计算机可读存储介质
CN109472022A (zh) * 2018-10-15 2019-03-15 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091167A2 (en) * 2004-03-16 2005-09-29 Google Inc. Systems and methods for translating chinese pinyin to chinese characters

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1570901A (zh) * 2003-07-23 2005-01-26 台达电子工业股份有限公司 手持交互式字典查询装置及其方法
CN100397392C (zh) * 2003-12-17 2008-06-25 北京大学 处理中文新词的方法与装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005091167A2 (en) * 2004-03-16 2005-09-29 Google Inc. Systems and methods for translating chinese pinyin to chinese characters

Also Published As

Publication number Publication date
CN1924858A (zh) 2007-03-07
WO2008022581A1 (fr) 2008-02-28

Similar Documents

Publication Publication Date Title
CN1924858B (zh) 一种获取新词的方法、装置以及一种输入法系统
CN100405371C (zh) 一种提取新词的方法和系统
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN102163198B (zh) 提供新词或热词的方法及系统
CN109726274B (zh) 问题生成方法、装置及存储介质
CN100458795C (zh) 一种智能组词输入的方法和一种输入法系统及其更新方法
CN100424703C (zh) 获取新编码字符串的方法及输入法系统、词库生成装置
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN104516949B (zh) 网页数据处理方法和装置、查询处理方法及问答系统
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN101373532A (zh) 旅游领域faq中文问答系统实现方法
CN107690634B (zh) 自动查询模式生成方法及系统
CN103491205A (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN104102721A (zh) 信息推荐方法和装置
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN115470328A (zh) 基于知识图谱的开放领域问答方法及相关设备
CN103226601A (zh) 一种图片搜索的方法和装置
CN101216836B (zh) 一种网页锚文本去噪系统及方法
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
CN104965902A (zh) 一种富集化url的识别方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant