CN101055588A - 获取限制词信息的方法、优化输出的方法和输入法系统 - Google Patents

获取限制词信息的方法、优化输出的方法和输入法系统 Download PDF

Info

Publication number
CN101055588A
CN101055588A CNA2007100996440A CN200710099644A CN101055588A CN 101055588 A CN101055588 A CN 101055588A CN A2007100996440 A CNA2007100996440 A CN A2007100996440A CN 200710099644 A CN200710099644 A CN 200710099644A CN 101055588 A CN101055588 A CN 101055588A
Authority
CN
China
Prior art keywords
word
information
target word
candidate item
eigenwert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100996440A
Other languages
English (en)
Other versions
CN100483417C (zh
Inventor
吕杰勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CNB2007100996440A priority Critical patent/CN100483417C/zh
Publication of CN101055588A publication Critical patent/CN101055588A/zh
Priority to PCT/CN2008/071064 priority patent/WO2008145055A1/zh
Application granted granted Critical
Publication of CN100483417C publication Critical patent/CN100483417C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种获取限制词信息的方法,包括:获取一目标词;获取该目标词相应的特征信息;判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序。本发明实施例通过预置包括限制词信息的输入法词库,在用户进行输入时,判断输出候选项是否符合应用限制信息的预置条件,进而依据是否符合的结果,控制具有限制词信息的候选项的是否显示和输出,从而使用户在不增加操作的前提下,可以获得更有效地输出,极大地优化了输入法系统的字符输出过程,提高了输入法系统的智能性。

Description

获取限制词信息的方法、优化输出的方法和输入法系统
技术领域
本发明涉及计算机字符输入数据处理领域,特别是涉及一种获取限制词信息的方法和装置、一种更新输入法词库的方法、一种优化输出的方法以及一种输入法系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,不同专业领域、不同兴趣以及使用习惯的用户对于输入法系统的智能性要求越来越高。
在现有技术中,已经出现了利用庞杂的互联网语料库统计、筛选得到输入法词库的技术。所得到的互联网词库中可以包含很多通过之前的封闭语料信息(如现代汉语词典、新闻、报纸等)所无法得到的新词,从而可以大大提高人们的输入效率。但是,正是由于互联网语料库的复杂性,使得从中通过词频统计筛选得到的一些词,具有语言学或者使用输入习惯上的一些缺陷。
例如,对于用户输入的拼音编码字符串“liangjiang”,一般可获得的候选项包括“两江”、“良将”等,具有互联网词库的候选项还可能包括“量将”,因为“量将”这个词在互联网网页中的出现频率还是相当高的,但是其一般都出现在句子中多个词的连接处(用于表达链接关系),例如,“旅客量将超过”。将“量将”这个词收入输入法词库中,固然可以增加输入法的智能性(达到较高的智能组词效果),但是却由于“量将”一词在单独成词的情况下很少出现,从而也有可能给用户输入造成麻烦,增加用户需要选择的候选项数量,降低输入效率。
因此,迫切需要本领域技术人员解决的一个技术问题就是:如何找出这样的具有语言学或者使用习惯上缺陷的词,并在输入过程中加以限制。
发明内容
本发明所要解决的技术问题是提供一种获取限制词信息的方法和装置,能够从大量的词汇中找出具有语言学或者使用习惯上缺陷的词,从而提高用户的输入体验。
本发明另一个目的是提供一种更新输入法词库的方法、一种优化输出的方法以及一种输入法系统,能够实现在实际输入过程中对某些词在某些情况下加以限制,从而可以实现在不增加用户操作的前提下,达到提高输入法智能性的目的。
为了解决上述技术问题,本发明公开了一种获取限制词信息的方法,具体可以包括:
获取一目标词;获取该目标词相应的特征信息;判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序。
其中,优选的,所述特征信息为:该目标词中位于词首的单字在预设语料库内作为词首的特征值,以及该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;所述用于判断的预置条件为:上述特征值中是否存在至少一个特征值是否属于预置范围。
或者,优选的,所述特征信息为:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;所述用于判断的预置条件为:上述特征值中是否存在至少一个特征值属于预置范围。
或者,优选的,所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;所述用于判断的预置条件为:该特征值是否属于预置范围。
或者,优选的,所述特征信息包括:该目标词中位于词首的单字在预设语料库内作为词首的特征值;该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;以及该目标词的通用词频;所述用于判断的预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
或者,优选的,所述特征信息包括:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;以及该目标词的通用词频;所述用于判断的预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
或者,优选的,所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;以及该目标词的通用词频;所述用于判断的预置条件为:该特征值与该目标词通用词频的比值是否属于预置范围。
或者,优选的,所述特征信息为:该目标词在针对同一输入编码的各候选词中的用户排序位置信息;以及该目标词的原始排序位置信息;其中,所述用户排序信息与该目标词在输入法应用中用户单独输入的特征值相关;所述原始排序信息与该目标词的通用词频相关;所述用于判断的预置条件为:所述用户排序位置信息与所述原始排序位置信息的差值是否属于预置范围。
进一步,在特征信息获取步骤之前还可以包括:对目标词的优化步骤。
优选的,所述限制信息包括:该限制词在各预设场景下的限制单独输出的权重。进一步,所述限制信息还可以包括:该限制词在预设语料库中的语言学搭配参数;所述语言学搭配参数用于限制该词在智能组词输出时的排序。
优选的,所述方法还可以包括:生成一词库或词表,所述词库或词表包括所述限制词及其相关限制信息;或者,生成一词库,所述词库包括所述限制词及其相关限制信息,以及通用字词。
依据本发明的另一实施例,公开了一种获取限制词信息的方法,具体可以包括:
获取一目标词;获取该目标词在预设语料库中的语言学搭配参数;判断所述语言学搭配参数是否符合预置条件,如果符合,则记录该目标词的限制信息,所述限制信息包括相应的语言学搭配参数,所述限制信息用于限制该词智能组词输出时的排序。
其中,优选的,所述语言学搭配参数为一通用参数;或者,所述语言学搭配参数包括针对各预设场景的分参数。
依据本发明的另一实施例,还公开了一种更新词库的方法,包括:
获取一目标词;获取该目标词相应的特征信息;判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序,和/或,用于限制该词智能组词输出时的排序;将所述限制词及其相关限制信息添加至输入法现有词库中。
优选的,所述添加可以为:判断该限制词是否在所述原始词库中已存在,如果已存在,则仅记录其相关限制信息至所述输入法现有词库中;或者,所述添加还可以为:直接将所述限制词及其相关限制信息记录至所述输入法现有词库中,如果词条重复,则覆盖原始词条;或者,所述添加还可以为:将所述限制词及其相关限制信息存储为一限制词表,所述限制词表和输入法现有词库用于协作完成候选项排序。
进一步,所述限制词具有在各预设场景下的限制信息。
依据本发明的另一实施例,还公开了一种获取限制词信息的装置,
具体可以包括:
目标词获取单元,用于获取一目标词;
特征信息获取单元,用于获取该目标词相应的特征信息;
限制信息获取单元,用于判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序,和/或,用于限制该词智能组词输出时的排序。
依据本发明的另一实施例,还公开了一种优化输出的方法,包括:
接收用户输入信息,并对所述输入信息进行转换;获得输出侯选项;判断一输出候选项是否符合应用限制信息的预置条件;如果是,则提取该输出候选项相应的限制信息,并根据所述限制信息对各候选项进行排序。
优选的,所述应用限制信息的预置条件为:所述输出侯选项是否为单独输出的词;或者,所述应用限制信息的预置条件为:所述输出侯选项是否属于智能组词情形。
优选的,可以通过以下步骤获取所述的限制信息:获取一目标词;获取该目标词相应的特征信息;判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则针对该目标词记录相关限制信息。
进一步,当需要判断所述输出侯选项是否为单独输出的词时,可以通过以下步骤完成:判断一输出候选项是否只包含一个元素,并且长度大于1个输出字符;所述元素为预置词库中存储的字词;如果是,则确定该输出候选项为单独输出的词。
依据本发明的另一实施例,还公开了一种输入法系统,包括输入接口单元和显示单元,所述输入法系统还可以包括:
词库:所述词库包括限制信息;
候选项获取单元:用于根据用户的输入信息获得输出侯选项;
判断单元,用于判断一输出候选项是否符合应用限制信息的预置条件;
候选项排序单元,用于当符合预置条件时,提取该输出候选项相应的限制信息,并根据所述限制信息对各候选项进行排序。
优选的,所述应用限制信息的预置条件为:所述输出侯选项是否为单独输出的词;或者,所述应用限制信息的预置条件为:所述输出侯选项是否属于智能组词情形。
优选的,所述判断单元进一步可以包括:用于判断一输出候选项是否只包含一个元素的子单元;其中,所述元素为预置词库中存储的字词;以及,用于判断该输出候选项的长度是否大于1个输出字符的子单元;以及,用于当该输出候选项符合上述两个判断条件时,确定其为单独输出的词的子单元。
优选的,所述输入法系统的输入接口单元、显示单元以及词库位于同一计算设备中;或者,所述输入法系统的输入接口单元、显示单元位于第一计算设备中,词库位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备中获取相应信息,在第一计算设备显示相应字词。
与现有技术相比,本发明实施例具有以下优点:本发明实施例通过预置包括限制词信息的输入法词库,在用户进行输入时,判断输出候选项是否符合应用限制信息的预置条件,进而依据是否符合的结果,控制具有限制词信息的候选项的是否显示和输出,从而使用户在不增加操作的前提下,可以获得更有效地输出(例如,在实际中,使限制词“量将”在被单独输出时不显示在候选项中,而在其它情况下参与组词),极大地优化了输入法系统的字符输出过程,提高了输入法系统的智能性。
附图说明
图1是本发明一种获取限制词信息的方法实施例1的步骤流程图;
图2是本发明一种获取限制词信息的方法实施例2的步骤流程图;
图3是本发明一种更新输入法词库的方法实施例的步骤流程图;
图4是本发明一种获取限制词信息的装置实施例的结构框图;
图5是本发明一种优化输出的方法实施例的步骤流程图;
图6是一种拼音网络切分方法的词网格示意图;
图7是一种输入法系统实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了一种获取限制词信息的方法实施例1,具体可以包括:
步骤101、获取一目标词;
所述获取目标词的过程可以从互联网得到,即直接从互联网语料库(例如,互联网网页集合或者搜索关键词集合等)中经过统计、筛选获得,也可以从现有词库得到,本发明对此并不需要加以限制,只要能够获得一个目标词集合即可;至于该集合的范围大小,本领域技术人员根据实际需要设定即可。
优选的,对于所获得的这个目标词集合,还可以包括一优化步骤,采用目标词的一些属性去除一些词汇,以进一步缩小范围。例如,从该集合中去除互联网词频或者词库词频小于等于预设阈值的词;从该集合中去除能够确定不属于限制词的词(例如字典中的通用词汇)等等。当然,所述的这个优化步骤,也完全可以在获取目标词集合的过程中完成。
步骤102、获取该目标词相应的特征信息;
步骤103、判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序。例如,对于限制词“量将”、“上一”等,在单独输出时不出现在候选项中,但是在与其他字词智能组词输出时没有限制。具体的例子:当输入“liangjiang”,依据词频信息的预输出的第一条为“量将”,但是由于其具有限制信息标记,则从候选项中去除;当输入“lvkeliangjiangchaoguo”,则输出“旅客量将超过”,此时“量将”这个词不需要被限制输出。
本实施例得到的限制词及其限制信息可以直接存储至一独立词库(或词表)中,例如,生成一词库(或词表),所述词库包括所述限制词及其相关限制信息;也可以与通用字词一起生成一输入法词库,例如,生成一词库,所述词库包括所述限制词及其相关限制信息,以及通用字词;还可以直接将其添加至输入法现有词库中。
所述限制信息可以为标识(例如,在词库中的该限制词打上标记0或1),也可以具有数值(例如,从0到1的二位小数),用于对候选项的排序进行调整,当然不显示就是一种极端情况。所得到的限制词及其限制信息根据实际需要,由用户手动更改,或者服务器更新修改都是可行的。
本实施例中根据所获得的特征信息的不同,相应的判断条件也会有所不同,下面举出多个例子对步骤102和103进行说明。其中的预置语料库可以为任何语料库;所述特征值可以经过统计得到,也可以根据经验或者现有知识直接得到;所述特征值可以为各种数值,例如概率或者频率等。其中的判断条件仅仅是举例而已,本领域技术人员可以根据需要设定更为复杂的判断条件,本发明对此不作限制。
例1
所述特征信息为:该目标词中位于词首的单字在预设语料库内作为词首的特征值,以及该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;
所述用于判断的预置条件为:上述特征值中是否存在至少一个特征值是否属于预置范围。
例如,对于“量将”中的单字“量”很少出现在词首,如果其词首出现频率小于或等于预设阈值,则可以判定“量将”为限制词。
当然,对于目标词为三个或以上的字组成,则还有可能判断位于词中某个位置上的单字在预设语料库内处于词中相同位置上的特征值。
例2
所述特征信息为:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;
所述用于判断的预置条件为:上述特征值中是否存在至少一个特征值属于预置范围。
所述的语言学搭配关系可以包括词与词的搭配参数,词与词性的搭配参数、词性与词性的搭配参数等多种匹配关系。本领域技术人员可以根据实际需要选用或者组合应用上述各种匹配关系。
例如,对于“是玩”一词,“是”之后紧跟动词,这样的搭配关系在语言学上很少见的,所以可以得到其搭配特征值小于或等于预设阈值,则可以判定“是玩”为限制词。
例3
所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;
所述用于判断的预置条件为:该特征值是否属于预置范围。
所述的用户单独输入可以为一个用户的统计值,也可以为一个用户群的统计平均值。所述用户单独输入的特征值可以直接从用户词库的记录得到,还可以通过监控用户输入行为得到。
例如,对于“是玩”一词,用户很少单独输入该词,所以当统计的特征值小于或等于预设阈值时,则可以判定“是玩”为限制词。
下面的几个例子中,为了进一步提高限制词的判定准确度,在判断条件中引入了通用词频,所述通用词频可以为互联网词频,也可以为词库词频。下面例子中与前述例子相似之处就不再赘述,具体请参见前述。
例4
所述特征信息包括:该目标词中位于词首的单字在预设语料库内作为词首的特征值;该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;以及该目标词的通用词频;
所述用于判断的预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
例5
所述特征信息包括:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;以及该目标词的通用词频;
所述用于判断的预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
例6
所述特征信息为:该目标词在针对同一输入编码的各候选词中的用户排序位置信息;以及该目标词的原始排序位置信息;其中,所述用户排序信息与该目标词在输入法应用中用户单独输入的特征值相关;所述原始排序信息与该目标词的通用词频相关;
所述用于判断的预置条件为:所述用户排序位置信息与所述原始排序位置信息的差值是否属于预置范围。
例7
所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;以及该目标词的通用词频;
所述用于判断的预置条件为:该特征值与该目标词通用词频的比值是否属于预置范围。
具体描述例7的一种具体实现过程如下:
A、统计每个词的通用词频f_web;
B、在用户群体的输入记录中统计每个词被单独输入的频率f_user;
C、计算alpha=f_user/f_web,当alpha远远小于正常水平的词认为是限制词;
D、或者,计算alpha=f_user/f_web,当alpha远远小于正常水平且f_user很低的词才认为是限制词。
其中,alpha为计算结果,f_web为字词的通用词频信息,f_user为字词的特征词频信息。
具体而言,可以对于所有的目标词汇,计算得到其对应的alpha值,并按照alpha值从小到大排序。对于那些alpha值排在top的词,如前5%,并且本身词频较高,如大于10000,则认为它是限制词。
需要说明的是,上述各个例子中的判断条件还可以组合使用。总之,本领域技术人员可以根据需要设定各种各样的判定方式,在此无法一一列举。
优选的,所述限制信息可以包括:该限制词在各预设场景下的限制单独输出的权重。即该限制词可以具有不同应用场景下的限制信息,并不仅仅具有一个通用的限制信息。例如,通过输入法当前程序确定用户的应用场景,当用户在word中输入时,调用限制在该预设场景(例如,工作用语环境)下的限制信息值。
进一步,所述限制信息还可以包括:该限制词在预设语料库中的语言学搭配参数;所述语言学搭配参数用于限制该词在智能组词输出时的排序。即对于某些限制词,在单独输出时,需要加以限制,并且在其智能组词输出时,也需要加以限制。例如,对于“上一”一词,在单独输出时需要加以限制,尽量不出现在候选项中,而对于“上一”和“里”智能组词输出时,也要依据搭配关系加以限制,尽量不出现在候选项中。
其中,所述限制信息可以包括该词在预设语料库中的所有的语言学搭配参数(例如,词性搭配参数),也可以仅仅保存所需的搭配参数。例如,设置一限制输出的阈值,如果某个搭配参数小于等于该阈值,则保存该搭配参数。
需要说明的是,所述预置语料信息可以为互联网语料信息和/或用户输入记录语料信息。其中,所述互联网语料信息可以通过网络spider从互联网上抓取海量网页获得;所述用户输入记录语料库可以包括直接信息和间接信息,例如,用户输入的字符记录等可作为直接信息,用户输入的字符分布统计等则可作为间接信息。当然,所述预置语料信息也可以由本领域技术人员根据需要或经验进行设置,本发明对此不需要进行限定。
参照图2,示出了一种获取限制词信息的方法实施例2,可以包括:
步骤201、获取一目标词;
步骤202、获取该目标词在预设语料库中的语言学搭配参数;
步骤203、判断所述语言学搭配参数是否符合预置条件,如果符合,则记录该目标词的限制信息,所述限制信息包括相应的语言学搭配参数,所述限制信息用于限制该词智能组词输出时的排序。
例如,“上一”与方位词的搭配参数值就很低,则如果一候选项为“上一”与方位词的搭配,则在进行智能组词时从候选项中将“上一”去除。
再例如,“讲”与动词的搭配参数小于预定阈值,则如果一候选项为“讲”与动词的搭配,则将“讲”从智能组词的序列中去除。
优选的,所述语言学搭配参数可以为一通用参数;或者,所述语言学搭配参数也可以包括针对各预设场景的分参数。所述的语言学搭配参数,可以包括词与词的搭配参数,词与词性的搭配参数、词性与词性的搭配参数等等。所述的语言学搭配参数所采用的表现数值可以为相邻同现频率、同现概率或连接强度值等,这些数值可以从任一预置语料库中统计得到,也可以依据现有经验或知识直接得到。
需要说明的是,通过上述筛选步骤,可以将符合条件的限制词从智能组词的序列中去除,从而减少了智能组词时的搜索空间,提高智能组词的效率。
参照图3,示出了一种更新输入法词库的方法实施例,具体可以包括:
步骤301、获取一目标词;
步骤302、获取该目标词相应的特征信息;
步骤303、判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序,和/或,用于限制该词智能组词输出时的排序;
步骤304、将所述限制词及其相关限制信息添加至输入法现有词库中。
本实施例可以应用于:服务器端获得了限制词信息,然后将其及时更新至输入法现有词库。所更新的限制可以包括前述两个实施例所获得的限制信息,即可以包括用于限制该词单独输出时排序的信息,也可以包括用于限制该词智能组词输出时排序的信息;二者可以单独存在,也可以并存。所述限制信息包括:该限制词在各预设场景下的限制单独输出的权重。
当然,也可以在服务器端将限制信息添加至词库后,然后将新词库进行发布更新。具体的更新传输方式在此就不详述了。
步骤304中所述的添加可以为各种方式,例如,
所述添加为:判断该限制词是否在所述原始词库中已存在,如果已存在,则仅记录其相关限制信息至所述输入法现有词库中;
或者,所述添加为:直接将所述限制词及其相关限制信息记录至所述输入法现有词库中,如果词条重复,则覆盖原始词条;
或者,所述添加为:将所述限制词及其相关限制信息存储为一限制词表,所述限制词表和输入法现有词库用于协作完成候选项排序。
参照图4,示出了一种获取限制词信息的装置实施例,具体可以包括:
目标词获取单元401,用于获取一目标词;
特征信息获取单元402,用于获取该目标词相应的特征信息;
限制信息获取单元403,用于判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序,和/或,用于限制该词智能组词输出时的排序。
参照图5,示出了一种优化输出的方法实施例,具体可以包括:
步骤501、接收用户输入信息,并对所述输入信息进行转换;
所述输入信息可以包括编码字符串,也可以包括手写输入信息以及语音输入的信息,因为这些输入方式也都需要用到词库进行候选项排序。即本发明可以应用于各种输入方式的输入法平台,包括键盘符号、手写信息以及语音输入等等。由于这些输入方式中的信息转换都属于公知技术,在此就不详述了。
例如,当用户输入时,输入法系统会对用户输入的编码字符串进行切分,以对拼音编码字符串的切分为例,通常,对一个拼音编码字符串进行切分,可以获得多种切分方案,例如,对于拼音编码字符串“fangan”,可以切分成“fang’an”,也可以切分成“fan’gan”等。当然,所述切分的方法可以为现有技术中的任一方法,本发明对此不需要进行限定。
步骤502、获得输出侯选项;
以一种拼音网络切分法为例,根据所述切分后的编码字符串获得输出侯选项的过程相当于把输入的连续拼音流自动转换为相应的文字流的过程。具体地说,所述过程为:对于一个给定的连续拼音流A,按着某种拼音流切分算法可以切分为一个拼音序列A1 A2…Am,其中每个拼音Ai对应的一组同音字词可以用一组列节点表示为Wi1 Wi2…Wi3。那么对于拼音序列A1 A2…Am,对应的候选同音字词可用m组列节点表示。显然,一个拼音序列对应的候选同音字词组成了一个候选同音字词矩阵。把相邻的节点用有向边连接起来,形成词网格。词网格构成了汉字输入问题的状态空间。音字转换问题演变为在词网格中搜索一条最优路径问题。
例如,输入一个拼音流“zheshiyizhipiaoliangdemao”,经过拼音流切分生成″zhe’shi’yi’zhi’piaoliang’de’mao”拼音序列,该拼音序列对应的词网格为图6所示。
然后,查询系统的语言规则库,进行规则匹配,递归地把所有可以匹配某一条语言规则的相邻列的节点捆绑成语言元素节点,形成元素网格。该元素网格构成了音字转换的新的状态空间。通过使用Viterbi动态规划算法,把系统的Bigram统计库和Bigram学习库的概率值通过加权结合起来,计算元素网格中所有的字词中候选字词的概率,选择其中具有最大概率的字词候选作为音字转换结果输出。
当然,本领域技术人员采用任一种获得所述输出候选项的方法都是可行的,本发明对此不需要进行限定。
步骤503、判断是否符合应用限制信息的预置条件;
步骤504、如果是,则提取输出候选项相应的限制信息,并根据所述限制信息对各候选项进行排序。
根据所述限制信息对各候选项进行排序可以通过直接设定展现位置或者顺序的方式实现,也可以通过修正词频(包括但不限于加权、降权)的方式实现;其中,最极端的就是从候选项中去除而不显示。
当某个词具有限制单独输出的限制信息时,所述应用限制信息的预置条件为:所述输出侯选项是否为单独输出的词;而所述的限制信息则可以通过以下步骤获取所述的限制信息:获取一目标词;获取该目标词相应的特征信息;判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则针对该目标词记录相关限制信息。
当某个词具有限制组词输出的限制信息时,所述应用限制信息的预置条件为:所述输出侯选项是否属于智能组词情形,而所述的限制信息则可以通过以下步骤获取:获取一目标词;获取该目标词在预设语料库中的语言学搭配参数;判断所述语言学搭配参数是否符合预置条件,如果符合,则记录该目标词的限制信息,所述限制信息包括相应的语言学搭配参数,所述限制信息用于限制该词智能组词输出时的排序。
优选的,当需要判断所述输出侯选项是否为单独输出的词时,可以通过以下步骤完成:
针对用户输入的编码字符串,首先获得所有可能的输出候选项;然后,判断一输出候选项是否只包含一个元素,并且长度大于1个输出字符;所述元素为预置词库中存储的字词;如果是,则确定该输出候选项为单独输出的词。对于是否包含一个元素的判断,可以通过ID映射的方式从词库中查询获得,或者通过判断所包含元素ID的个数,即可确定所述输出候选项是否只包含一个元素。
所述1个输出字符可以为不同输入法系统中不同字节长度或其它长度的字符,例如,对于中文、日文或韩文输入法来说,所述1个输出字符为包含2个字节的字;对于所述长度的判断,可以通过读取词库中预置的长度参数来判断,所述长度参数可以针对所述字词ID存储在相应词条的属性中;或者,通过直接获取所述输出候选项的长度来判断,以及采用现有技术中的其它方法都是可行的,本发明对此不作限制。
例如,对于用户输入编码字符串“liangjiangzong”的情况而言,针对该编码字符串做完拼音网络切分之后,得到的各个可能的候选项为:两江总、量将、两江、良将等等。其中,假设每个候选项可以表示为<词条1,属性1>、<词条2,属性2>……;或者,<词条1的ID,属性1>、<词条2的ID,属性2>。
比如,对于候选项“两江总”,就可以表示为:<两江p1>、<总p2>;
对于候选项“量将”,就可以表示为:<量将q1>;
而对于<量将q1>而言,其仅包含一个元素,并且大于1个输出字符;继续判断其属性q1是否包含限制信息标记,由于其具有限制信息标记(例如,tag非0),所以该候选项不输出。所述属性q1中还可以包括长度参数。
即最终输出的候选项为:两江总、两江、良将。
对于一般情况而言,一个候选项不是单独输出,则就是属于组词输出,所以上述过程也可以用于智能组词情况的判断。
当然,对于当用户仅仅输入了两个音节的时候,可以不用经过上述判断过程,直接判定为单独输出,因为两个音节一般不会是智能组词的情况。即所述判断是否为单独输出的方法可以包括现有技术中的任一种方法,例如,对于用户输入的不需要进行切分的编码字符串,判定获得的输出候选项为单独输出的词;或者,对于用户输入的编码字符串对应于词库中单个词条的输出候选项,确定为单独输出的词。
参照图7,示出了一种输入法系统实施例,具体可以包括:
输入接口单元701和显示单元702,以及
词库703:所述词库包括限制信息;其中所述限制信息可以为前述的各种限制信息;所述限制信息的存在方式也可以各种各样,例如,以词表的方式存在于词库中,或者通过对词库中的相应词条打标记的方式实现。
候选项获取单元704:用于根据用户的输入信息获得输出侯选项;
判断单元705,用于判断一输出候选项是否符合应用限制信息的预置条件;
候选项排序单元706,用于当符合预置条件时,提取该输出候选项相应的限制信息,并根据所述限制信息对各候选项进行排序。
所述的词库703可以包括词条信息和限制词信息,即可以在现有词库中对于符合预置条件的词记录限制词信息。另一种优选的情况为,所述词库703为包括基础词库和限制词表,所述限制词表为记录具有限制词信息的词表。在这种情况下,可以将符合预置条件的单词及相应的限制信息独立存储为一张限制词表,该限制词表和基础词库即组成本实施例中的输入法词库。当然,本领域技术人员采用现有技术中的其它方法预置输入法词库也是可行的,本发明对此不作限制。
优选的,当某个词具有限制单独输出的限制信息时,所述应用限制信息的预置条件为:所述输出侯选项是否为单独输出的词;则所述判断单元进一步可以包括:用于判断一输出候选项是否只包含一个元素的子单元;其中,所述元素为预置词库中存储的字词;以及,用于判断该输出候选项的长度是否大于1个输出字符的子单元;以及,用于当该输出候选项符合上述两个判断条件时,确定其为单独输出的词的子单元。
当某个词具有限制组词输出的限制信息时,所述应用限制信息的预置条件为:所述输出侯选项是否属于智能组词情形。其判定方式也可以采用前述方法,如果不符合判断条件,则属于智能组词情形。
上述输入法系统可以为普通输入法系统,例如,所述输入法系统的输入接口单元、显示单元以及词库位于同一计算设备中;上述输入法系统可以为网络输入法系统,例如,所述输入法系统的输入接口单元、显示单元位于第一计算设备中,词库位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备中获取相应信息,在第一计算设备显示相应字词。
由于前述的各个实施例都是基于本发明同一构思的,所以互相着重描述的是区别之处,相似之处可以参见本说明书相应部分。
以上对本发明所提供的一种获取限制词信息的方法和装置、一种更新词库的方法、一种优化输出的方法和一种输入法系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (26)

1、一种获取限制词信息的方法,其特征在于,包括:
获取一目标词;
获取该目标词相应的特征信息;
判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序。
2、如权利要求1所述的方法,其特征在于,
所述特征信息为:该目标词中位于词首的单字在预设语料库内作为词首的特征值,以及该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;
所述用于判断的预置条件为:上述特征值中是否存在至少一个特征值是否属于预置范围。
3、如权利要求1所述的方法,其特征在于,
所述特征信息为:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;
所述用于判断的预置条件为:上述特征值中是否存在至少一个特征值属于预置范围。
4、如权利要求1所述的方法,其特征在于,
所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;
所述用于判断的预置条件为:该特征值是否属于预置范围。
5、如权利要求1所述的方法,其特征在于,
所述特征信息包括:该目标词中位于词首的单字在预设语料库内作为词首的特征值;该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;以及该目标词的通用词频;
所述用于判断的预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
6、如权利要求1所述的方法,其特征在于,
所述特征信息包括:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;以及该目标词的通用词频;
所述用于判断的预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
7、如权利要求1所述的方法,其特征在于,
所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;以及该目标词的通用词频;
所述用于判断的预置条件为:该特征值与该目标词通用词频的比值是否属于预置范围。
8、如权利要求1所述的方法,其特征在于,
所述特征信息为:该目标词在针对同一输入编码的各候选词中的用户排序位置信息;以及该目标词的原始排序位置信息;其中,所述用户排序信息与该目标词在输入法应用中用户单独输入的特征值相关;所述原始排序信息与该目标词的通用词频相关;
所述用于判断的预置条件为:所述用户排序位置信息与所述原始排序位置信息的差值是否属于预置范围。
9、如权利要求1-8所述的任一方法,其特征在于,在特征信息获取步骤之前还包括:对目标词的优化步骤。
10、如权利要求1-8所述的任一方法,其特征在于,所述限制信息包括:该限制词在各预设场景下的限制单独输出的权重。
11、如权利要求1-8所述的任一方法,其特征在于,
所述限制信息还包括:该限制词在预设语料库中的语言学搭配参数;所述语言学搭配参数用于限制该词在智能组词输出时的排序。
12、如权利要求1-8所述的任一方法,其特征在于,还包括:
生成一词库或词表,所述词库或词表包括所述限制词及其相关限制信息;
或者,生成一词库,所述词库包括所述限制词及其相关限制信息,以及通用字词。
13、一种获取限制词信息的方法,其特征在于,包括:
获取一目标词;
获取该目标词在预设语料库中的语言学搭配参数;
判断所述语言学搭配参数是否符合预置条件,如果符合,则记录该目标词的限制信息,所述限制信息包括相应的语言学搭配参数,所述限制信息用于限制该词智能组词输出时的排序。
14、如权利要求13所述的方法,其特征在于:
所述语言学搭配参数为一通用参数;
或者,所述语言学搭配参数包括针对各预设场景的分参数。
15、一种更新词库的方法,其特征在于,包括:
获取一目标词;
获取该目标词相应的特征信息;
判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序,和/或,用于限制该词智能组词输出时的排序;
将所述限制词及其相关限制信息添加至输入法现有词库中。
16、如权利要求15所述的方法,其特征在于,
所述添加为:判断该限制词是否在所述原始词库中已存在,如果已存在,则仅记录其相关限制信息至所述输入法现有词库中;
或者,所述添加为:直接将所述限制词及其相关限制信息记录至所述输入法现有词库中,如果词条重复,则覆盖原始词条;
或者,所述添加为:将所述限制词及其相关限制信息存储为一限制词表,所述限制词表和输入法现有词库用于协作完成候选项排序。
17、如权利要求15所述的方法,其特征在于,所述限制词具有在各预设场景下的限制信息。
18、一种获取限制词信息的装置,其特征在于,包括:
目标词获取单元,用于获取一目标词;
特征信息获取单元,用于获取该目标词相应的特征信息;
限制信息获取单元,用于判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制信息用于限制该词单独输出时的排序,和/或,用于限制该词智能组词输出时的排序。
19、一种优化输出的方法,其特征在于,包括:
接收用户输入信息,并对所述输入信息进行转换;
获得输出侯选项;
判断一输出候选项是否符合应用限制信息的预置条件;
如果是,则提取该输出候选项相应的限制信息,并根据所述限制信息对各候选项进行排序。
20、如权利要求19所述的方法,其特征在于:
所述应用限制信息的预置条件为:所述输出侯选项是否为单独输出的词;
或者,所述应用限制信息的预置条件为:所述输出侯选项是否属于智能组词情形。
21、如权利要求19所述的方法,其特征在于,通过以下步骤获取所述的限制信息:
获取一目标词;
获取该目标词相应的特征信息;
判断所述特征信息或其相应的计算结果是否符合预置条件,如果符合,则针对该目标词记录相关限制信息。
22、如权利要求20所述的方法,其特征在于,当需要判断所述输出侯选项是否为单独输出的词时,通过以下步骤完成:
判断一输出候选项是否只包含一个元素,并且长度大于1个输出字符;所述元素为预置词库中存储的字词;
如果是,则确定该输出候选项为单独输出的词。
23、一种输入法系统,包括输入接口单元和显示单元,其特征在于,所述输入法系统还包括:
词库:所述词库包括限制信息;
候选项获取单元:用于根据用户的输入信息获得输出侯选项;
判断单元,用于判断一输出候选项是否符合应用限制信息的预置条件;
候选项排序单元,用于当符合预置条件时,提取该输出候选项相应的限制信息,并根据所述限制信息对各候选项进行排序。
24、如权利要求23所述的系统,其特征在于:
所述应用限制信息的预置条件为:所述输出侯选项是否为单独输出的词;
或者,所述应用限制信息的预置条件为:所述输出侯选项是否属于智能组词情形。
25、如权利要求23所述的输入法系统,其特征在于,所述判断单元进一步包括:
用于判断一输出候选项是否只包含一个元素的子单元;其中,所述元素为预置词库中存储的字词;以及,
用于判断该输出候选项的长度是否大于1个输出字符的子单元;以及,
用于当该输出候选项符合上述两个判断条件时,确定其为单独输出的词的子单元。
26、如权利要求24所述的输入法系统,其特征在于,所述输入法系统的输入接口单元、显示单元以及词库位于同一计算设备中;
或者,所述输入法系统的输入接口单元、显示单元位于第一计算设备中,词库位于第二计算设备中,所述输入法系统根据用户输入的信息,从位于第二计算设备中获取相应信息,在第一计算设备显示相应字词。
CNB2007100996440A 2007-05-25 2007-05-25 获取限制词信息的方法、优化输出的方法和输入法系统 Active CN100483417C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2007100996440A CN100483417C (zh) 2007-05-25 2007-05-25 获取限制词信息的方法、优化输出的方法和输入法系统
PCT/CN2008/071064 WO2008145055A1 (fr) 2007-05-25 2008-05-23 Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100996440A CN100483417C (zh) 2007-05-25 2007-05-25 获取限制词信息的方法、优化输出的方法和输入法系统

Publications (2)

Publication Number Publication Date
CN101055588A true CN101055588A (zh) 2007-10-17
CN100483417C CN100483417C (zh) 2009-04-29

Family

ID=38795424

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100996440A Active CN100483417C (zh) 2007-05-25 2007-05-25 获取限制词信息的方法、优化输出的方法和输入法系统

Country Status (2)

Country Link
CN (1) CN100483417C (zh)
WO (1) WO2008145055A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008145055A1 (fr) * 2007-05-25 2008-12-04 Beijing Sogou Technology Development Co., Ltd. Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie
CN102141868A (zh) * 2010-01-28 2011-08-03 北京搜狗科技发展有限公司 快捷操作信息交互页面的方法、输入法系统和浏览器插件
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置
CN102495679A (zh) * 2011-12-01 2012-06-13 上海量明科技发展有限公司 复拼写型输入法、词库及其系统
US8407236B2 (en) 2008-10-03 2013-03-26 Microsoft Corp. Mining new words from a query log for input method editors
CN103365875A (zh) * 2012-03-29 2013-10-23 百度在线网络技术(北京)有限公司 一种用于在当前应用中提供联系对象的方法与设备
CN105094368A (zh) * 2015-07-24 2015-11-25 上海二三四五网络科技有限公司 一种对输入法候选项进行调频排序的控制方法及控制装置
CN105955495A (zh) * 2016-04-29 2016-09-21 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN106156056A (zh) * 2015-03-27 2016-11-23 联想(北京)有限公司 一种文本模式学习方法及电子设备
CN107390896A (zh) * 2017-07-21 2017-11-24 深圳市鹰硕技术有限公司 一种输入法的词库管理方法及装置
CN108509555A (zh) * 2018-03-22 2018-09-07 武汉斗鱼网络科技有限公司 搜索词确定方法、装置、设备及存储介质
WO2019024246A1 (zh) * 2017-08-01 2019-02-07 深圳市鹰硕技术有限公司 信息屏蔽方法及系统
WO2019223259A1 (zh) * 2018-05-25 2019-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种对词库进行处理的方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455160B (zh) * 2012-05-29 2017-07-28 阿里巴巴集团控股有限公司 一种根据地理位置推荐候选词的方法和装置
CN103869998B (zh) * 2012-12-11 2018-05-01 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN112083814A (zh) * 2020-08-28 2020-12-15 的卢技术有限公司 一种基于ai和云计算的词库生成方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1123815C (zh) * 1997-07-25 2003-10-08 上海欧姆龙计算机有限公司 汉字输入系统中的拼音字词关系表自动登录方法及装置
CN1203387C (zh) * 2001-02-15 2005-05-25 英业达股份有限公司 一种调整字频的方法
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
JP2006050160A (ja) * 2004-08-03 2006-02-16 Sharp Corp 中国語入力装置、中国語入力プログラム及び中国語入力記録媒体
CN100550011C (zh) * 2004-11-29 2009-10-14 广东瑞图万方科技有限公司 建立联想输入系统的方法及对应的联想输入系统和方法
CN100424703C (zh) * 2006-08-23 2008-10-08 北京搜狗科技发展有限公司 获取新编码字符串的方法及输入法系统、词库生成装置
CN100483417C (zh) * 2007-05-25 2009-04-29 北京搜狗科技发展有限公司 获取限制词信息的方法、优化输出的方法和输入法系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008145055A1 (fr) * 2007-05-25 2008-12-04 Beijing Sogou Technology Development Co., Ltd. Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie
US8407236B2 (en) 2008-10-03 2013-03-26 Microsoft Corp. Mining new words from a query log for input method editors
CN102141868A (zh) * 2010-01-28 2011-08-03 北京搜狗科技发展有限公司 快捷操作信息交互页面的方法、输入法系统和浏览器插件
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置
CN102495679A (zh) * 2011-12-01 2012-06-13 上海量明科技发展有限公司 复拼写型输入法、词库及其系统
CN103365875A (zh) * 2012-03-29 2013-10-23 百度在线网络技术(北京)有限公司 一种用于在当前应用中提供联系对象的方法与设备
CN103365875B (zh) * 2012-03-29 2018-05-11 百度在线网络技术(北京)有限公司 一种用于在当前应用中提供联系对象的方法与设备
CN106156056A (zh) * 2015-03-27 2016-11-23 联想(北京)有限公司 一种文本模式学习方法及电子设备
CN106156056B (zh) * 2015-03-27 2020-03-06 联想(北京)有限公司 一种文本模式学习方法及电子设备
CN105094368A (zh) * 2015-07-24 2015-11-25 上海二三四五网络科技有限公司 一种对输入法候选项进行调频排序的控制方法及控制装置
CN105094368B (zh) * 2015-07-24 2018-05-15 上海二三四五网络科技有限公司 一种对输入法候选项进行调频排序的控制方法及控制装置
CN105955495A (zh) * 2016-04-29 2016-09-21 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN107390896A (zh) * 2017-07-21 2017-11-24 深圳市鹰硕技术有限公司 一种输入法的词库管理方法及装置
WO2019015133A1 (zh) * 2017-07-21 2019-01-24 深圳市鹰硕技术有限公司 一种输入法的词库管理方法及装置
CN107390896B (zh) * 2017-07-21 2019-12-03 深圳市鹰硕技术有限公司 一种输入法的词库管理方法及装置
WO2019024246A1 (zh) * 2017-08-01 2019-02-07 深圳市鹰硕技术有限公司 信息屏蔽方法及系统
CN108509555A (zh) * 2018-03-22 2018-09-07 武汉斗鱼网络科技有限公司 搜索词确定方法、装置、设备及存储介质
WO2019223259A1 (zh) * 2018-05-25 2019-11-28 腾讯音乐娱乐科技(深圳)有限公司 一种对词库进行处理的方法及装置

Also Published As

Publication number Publication date
WO2008145055A1 (fr) 2008-12-04
CN100483417C (zh) 2009-04-29

Similar Documents

Publication Publication Date Title
CN101055588A (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
CN1174332C (zh) 转换表达方式的方法和装置
CN1161701C (zh) 语言识别装置和语言识别方法
CN1113305C (zh) 语言处理装置和方法
CN1227613C (zh) 注释数据生成、音素或字搜索及添加的相应设备与方法
CN1096036C (zh) 以格阵作关键字的字典检索装置和方法
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1180369C (zh) 输入字符串的设备和方法
CN1542649A (zh) 自然语言生成系统中用于句子实现中排序的成分结构的语言信息统计模型
CN101065746A (zh) 文件自动丰富的方法和系统
CN1607491A (zh) 使用操纵杆输入中文的系统和方法
CN1701323A (zh) 使用笔迹特征合成的数字笔迹数据库搜索
CN1615480A (zh) 网络设备间配置文件的翻译
CN1890669A (zh) 关键字字符串的增量搜索
CN1910573A (zh) 用来识别并分类命名实体的系统
CN1573926A (zh) 用于文本和语音分类的区别性语言模型训练
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1841367A (zh) 用于通过在语言之间执行翻译来支持交流的交流支持设备和方法
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1908935A (zh) 一种自然语言的搜索方法及系统
CN1896994A (zh) 用于显示零件信息的装置、系统和方法
CN1771494A (zh) 包括无分隔符的块的文本的自动分块
CN1799020A (zh) 信息处理方法和设备
CN1702650A (zh) 用于将日文翻译成中文的设备和方法以及计算机程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant