CN106557178B - 用于更新输入法词条的方法及装置 - Google Patents

用于更新输入法词条的方法及装置 Download PDF

Info

Publication number
CN106557178B
CN106557178B CN201611069378.2A CN201611069378A CN106557178B CN 106557178 B CN106557178 B CN 106557178B CN 201611069378 A CN201611069378 A CN 201611069378A CN 106557178 B CN106557178 B CN 106557178B
Authority
CN
China
Prior art keywords
entry
updated
entries
sequence
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611069378.2A
Other languages
English (en)
Other versions
CN106557178A (zh
Inventor
陈丽敏
向军志
李阳
谭凤影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co ltd
Original Assignee
Baidu International Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co ltd filed Critical Baidu International Technology Shenzhen Co ltd
Priority to CN201611069378.2A priority Critical patent/CN106557178B/zh
Publication of CN106557178A publication Critical patent/CN106557178A/zh
Application granted granted Critical
Publication of CN106557178B publication Critical patent/CN106557178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请公开了用于更新输入法词条的方法及装置。该方法的一具体实施方式包括:监测词条变化信息;根据词条变化信息确定更新词条;确定每个更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将更新词条库推送给输入法所在的终端。该实施方式提高了输入法的输出准确性和输出效率。

Description

用于更新输入法词条的方法及装置
技术领域
本申请涉及数据处理技术领域,具体涉及输入法技术领域,尤其涉及用于更新输入法词条的方法及装置。
背景技术
随着科技的发展,各种智能设备应运而生,这些智能设备通常具备很好的便携性,强大的数据处理功能和联网功能,提高了人们工作和学习的效率,成为人们工作和生活中不可或缺的组成部分。智能设备经常需要输入信息来进行相应的数据处理,输入法应用就成为了智能设备必备的应用。对于现有的大部分输入法而言,输入法的词条库决定了用户输入拼音信息时能够推荐的字、词或词组,以及这些字、词或词组的排序。此外,输入法还会通过用户的历史输入词条(即词条的上屏记录)来学习用户的输入习惯,对推荐的字、词或词组进行修正。其中,拼音信息通常用于得到字、词、词组或句子等信息。
然而,现有的输入法在识别拼音信息时还存在一些不足。随着网络的发展,新词条不断出现。现有的输入法通常不能及时对词条进行更新,或更新不到新词条;另一方面,随着时间的推移,人们对词的偏好也不断发生着变化,许多以前不常用的词条会变的常用,许多以前常用的词条变得不常用,这也会导致输入法无法提供给用户想要的词条,降低了输入法的输入准确率。
发明内容
本申请提供了用于更新输入法词条的方法及装置,以解决背景技术中提到的技术问题。
第一方面,本申请提供了一种用于更新输入法词条的方法,该方法包括:监测词条变化信息,其中,上述词条包括字、词和/或词组,上述词条变化信息包括词条在设定时期内的出现次数和使用该词条的用户数;根据上述词条变化信息确定更新词条,上述更新词条为出现次数超过设定次数的词条和/或使用该词条的用户数超过设定数量的词条;为更新词条设置权值,将两个更新词条按先后顺序同时出现的次数与上述两个更新词条出现的总次数的比值作为上述两个更新词条的二元关系值,上述二元关系值用于表征两个更新词条按先后顺序相邻出现的概率,通过上述权值和二元关系值确定更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将上述更新词条库推送给输入法所在的终端。
在一些实施例中,上述为更新词条设置权值包括:根据更新词条的出现次数占全部更新词条的出现总次数的比例确定该更新词条的初始权值;计算更新词条的紧密度值,根据上述紧密度值对上述初始权值进行调整得到更新词条的权值,上述紧密度值通过更新词条被一次性调用的概率来表示。
在一些实施例中,上述根据上述紧密度值对上述初始权值进行调整得到更新词条的权值包括:当更新词条为词组时,若词组内容被同时调用,则上述紧密度值为正值,否则上述紧密度值为负值,将上述更新词条的初始权值与上述紧密度值的和作为更新词条的权值,其中,上述词组内容包括组成词组的字。
在一些实施例中,上述通过上述权值和二元关系值确定更新词条的被调用顺序包括:若更新词条存在二元关系值,则按二元关系值由大到小的顺序确定更新词条的被调用顺序,否则,按权值由大到小的顺序确定更新词条的被调用顺序。
第二方面,本申请提供了一种用于更新输入法词条的方法,该方法包括:接收词条服务器发来的更新词条库;获取输入法的历史输入词条,基于上述历史输入词条和更新词条构建词条库,上述历史输入词条中的词条包含权值和/或二元关系值,其中,上述权值用于表征词条被调用的概率,上述二元关系值用于表征两个词条按先后顺序相邻出现的概率。
在一些实施例中,上述基于上述历史输入词条和更新词条构建词条库包括:确定上述词条库中每个词条的被调用顺序。
在一些实施例中,上述确定上述词条库中每个词条的被调用顺序包括:当通过用户输入的拼音信息找到对应的词条时,按照词条的二元关系值由大到小的顺序确定被调用顺序,否则,按照词条的权值由大到小的顺序确定被调用顺序;当不能通过用户输入的拼音信息找到对应的词条时,对该拼音信息进行切词,并通过切词后的拼音信息确定词条,然后通过词条的二元关系值确定切词前的拼音信息对应的词条的被调用顺序。
第三方面,本申请提供了一种用于更新输入法词条的装置,该装置包括:监测单元,用于监测词条变化信息,其中,上述词条包括字、词和/或词组,上述词条变化信息包括词条在设定时期内的出现次数和使用该词条的用户数;更新词条确定单元,用于根据上述词条变化信息确定更新词条,上述更新词条为出现次数超过设定次数的词条和/或使用该词条的用户数超过设定数量的词条;更新词条库构建单元,包括取值设置子单元、二元关系值计算子单元和被调用顺序确定子单元;其中,取值设置子单元,用于为更新词条设置权值,二元关系值计算子单元,包括二元关系值计算模块,用于将两个更新词条按先后顺序同时出现的次数与上述两个更新词条出现的总次数的比值作为上述两个更新词条的二元关系值,上述二元关系值用于表征两个更新词条按先后顺序相邻出现的概率,被调用顺序确定子单元,用于通过上述权值和二元关系值确定更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将上述更新词条库推送给输入法所在的终端。
在一些实施例中,上述取值设置子单元包括:初始权值确定模块,用于根据更新词条的出现次数占全部更新词条的出现总次数的比例确定该更新词条的初始权值;权值计算模块,用于计算更新词条的紧密度值,根据上述紧密度值对上述初始权值进行调整得到更新词条的权值,上述紧密度值通过更新词条被一次性调用的概率来表示。
在一些实施例中,上述权值计算模块包括:权值计算子模块,用于在更新词条为词组时,若词组内容被同时调用,则上述紧密度值为正值,否则上述紧密度值为负值,将上述更新词条的初始权值与上述紧密度值的和作为更新词条的权值,其中,上述词组内容包括组成词组的字。
在一些实施例中,上述被调用顺序确定子单元包括:被调用顺序确定模块,用于在更新词条存在二元关系值时,按二元关系值由大到小的顺序确定更新词条的被调用顺序,否则,按权值由大到小的顺序确定更新词条的被调用顺序。
第四方面,本申请提供了一种用于更新输入法词条的装置,该装置包括:更新词条库接收单元,用于接收词条服务器发来的更新词条库;词条库构建单元,用于获取输入法的历史输入词条,基于上述历史输入词条和更新词条构建词条库,上述历史输入词条中的词条包含权值和/或二元关系值,其中,上述权值用于表征词条被调用的概率,上述二元关系值用于表征两个词条按先后顺序相邻出现的概率。
在一些实施例中,上述词条库构建单元包括:被调用顺序确定子单元,用于确定上述词条库中每个词条的被调用顺序。
在一些实施例中,上述被调用顺序确定子单元包括:第一被调用顺序确定模块,用于在通过用户输入的拼音信息找到对应的词条时,按照词条的二元关系值由大到小的顺序确定被调用顺序,否则,按照词条的权值由大到小的顺序确定被调用顺序;第二被调用顺序确定模块,用于在不能通过用户输入的拼音信息找到对应的词条时,对该拼音信息进行切词,并通过切词后的拼音信息确定词条,然后通过词条的二元关系值确定切词前的拼音信息对应的词条的被调用顺序。
本申请提供的用于更新输入法词条的方法及装置,监测词条变化信息,能够获取词条的实时变化情况;然后将出现次数较多和/或用户数较多的词条确定更新词条;最后确定更新词条的被调用顺序,并基于确定了被调用顺序的更新词条构建更新词条库,将更新词条库推送给终端,提高了输入法的输出准确性和输出效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于更新输入法词条的方法的一个实施例的流程图;
图3是根据本申请的用于更新输入法词条的方法的另一个实施例的流程图;
图4是根据本申请的用于更新输入法词条的方法的应用场景的一个示意图;
图5是根据本申请的用于更新输入法词条的装置的一个实施例的结构示意图;
图6是根据本申请的用于更新输入法词条的装置的另一个实施例的结构示意图;
图7是根据本申请的服务器的一个实施例的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于更新输入法词条的方法或用于更新输入法词条的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送信息等。终端设备101、102、103上可以安装有各种信息处理应用,例如信息显示应用、输入法应用等。
终端设备101、102、103可以是运行信息处理应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是对终端设备101、102、103上的信息处理应用进行更新的词条服务器。例如,监测多种媒体上的词条变化信息,对终端设备101、102、103上的词条进行更新的词条服务器。服务器105对多种媒体上的词条进行检测,从中选择使用频率高和/或新出现的词条,然后将这些词条作为更新词条发送给终端设备101、102、103。
需要说明的是,本申请实施例所提供的用于更新输入法词条的方法由终端设备101、102、103和服务器105共同执行。相应地,用于更新输入法词条的装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2,其示出了一种用于更新输入法词条的方法的一个实施例的流程图200,该用于更新输入法词条的方法包括:
步骤201,监测词条变化信息。
在本实施例中,电子设备(例如图1所示的服务器105)可以通过有线或无线的方式对终端设备101、102、103上的信息处理应用的词条进行更新。其中,上述词条包括字、词和/或词组,上述词条变化信息包括词条在设定时期内的出现次数和使用该词条的用户数。
随着科技的发展及各种信息的广泛出现,词条也在不断变化。新的词条也可能随时出现。服务器105能够实时监测网络等多种媒体上海量的词条,并对词条出现的次数及使用词条的用户数进行统计,得到词条的变化信息,能够监测到词条的变化趋势。
步骤202,根据上述词条变化信息确定更新词条。
服务器105监测到各个媒体上的词条变化趋势后,服务器105可以根据变化趋势对词条进行筛选,筛选出新出现的词条、使用频率很高的词条和用户数很高的词条,并将这些词条作为更新词条。即,上述更新词条为出现次数超过设定次数的词条和/或使用该词条的用户数超过设定数量的词条。
步骤203,确定每个更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将上述更新词条库推送给输入法所在的终端。
服务器105确定更新词条后,不能直接推送给终端设备101、102、103,如果直接推送给终端设备101、102、103,终端设备101、102、103上的输入法就不知道哪些更新词条应该排在前面,哪些更新词条应该排在后面,也就不能快速为用户提供准确的词条。因此,在将更新词条推送给终端设备101、102、103之前,还需要确定每个更新词条的被调用顺序,将确定了被调用顺序后的更新词条构建成更新词条库后,再将更新词条库发送给终端设备101、102、103。这样,终端设备101、102、103上的输入法就可以直接通过更新词条的被调用顺序,并根据用户输入的拼音信息准确地提供词条,而不必再学习用户选择的词条,提高了输入法的输入效率和输入准确率。服务器105可以定期向终端设备101、102、103发送更新词条库,也可以在更新词条达到一定数量等情况下向终端设备101、102、103发送更新词条库,向终端设备101、102、103发送更新词条库的方式可以有多种,具体视实际情况而定。
在本实施例的一些可选的实现方式中,上述确定每个更新词条的被调用顺序可以包括以下步骤:
第一步,为更新词条设置权值。
更新词条是服务器105对海量的词条统计后筛选出来的,具有一段时期内的代表性。更新词条的数量往往也不小,因此,还需要在众多的更新词条中,为每个更新词条设置对应的权值。权值用于表征更新词条对应的更新词条被调用的概率大小,权值的大小主要与该更新词条被服务器105统计的出现次数相关。
第二步,计算任意两个更新词条的二元关系值。
有些更新词条是独立出现的,例如:“洪荒之力”、“完美”、“静静”、“萌萌哒”、“心塞”、“图样图森破”、“白富美”、“高富帅”、“涨姿势”、“注定孤独一生”、“我和小伙伴们都惊呆了”、“火钳刘明”、“喜大普奔”、“人艰不拆”、“神马都是浮云”;有些更新词条则可以独立出现,还可以与其他更新词条一起出现,在一起出现时,也可以认为是一个更新词条。例如:“难受”、“想哭”,以及由“难受”、“想哭”变音得到的“蓝瘦”、“香菇”、“世界这么大”、“我想去看看”、“梦想还是要有的”、“万一实现了呢”、“先定一个能达到的小目标”、“比方说我先挣它一个亿”。这些更新词条在一个出现的时候,另一个出现的概率很高。因此,可以认为这类经常同时出现的更新词条具有二元关系,而二元关系值就用于表征两个更新词条按先后顺序相邻出现的概率。
第三步,通过上述权值和二元关系值确定更新词条的被调用顺序。
如果更新词条有二元关系值,则首先根据二元关系提供更新词条;若更新词条没有二元关系值,则按照更新词条的权值确定更新词条的被调用顺序。
在本实施例的一些可选的实现方式中,上述为更新词条设置权值可以包括以下步骤:
第一步,根据更新词条的出现次数占全部更新词条的出现总次数的比例确定该更新词条的初始权值。
更新词条是服务器105在一段时期内统计并筛选后得到的,因此,可以将更新词条的出现次数占全部更新词条的出现总次数的比例作为该更新词条的初始权值。
第二步,计算更新词条的紧密度值,根据上述紧密度值对上述初始权值进行调整得到更新词条的权值。
由上述描述可知,更新词条经常是词或由多个词构成的词组、句子。用户通过输入法输出某些更新词条时,可以一次性输出完整的更新词条,还可以在更新词条中间增加其他词条。例如,更新词条为:“梦想还是要有的,万一实现了呢”,则用户可以通过输入法一次性输出该更新词条,还可以在中间加其他词条或词。例如,用户可以通过输入法输出:“梦想还是要有的,不能因为一时的困难就放弃之前的努力,万一实现了呢”。此时就涉及到更新词条的紧密度,上述紧密度值通过更新词条被一次性调用的概率来表示。紧密度越高,说明更新词条作为一个词条的可能性更大,否则,说明更新词条作为一个词条的可能性更小。
在本实施例的一些可选的实现方式中,上述根据上述紧密度值对上述初始权值进行调整得到更新词条的权值可以包括:当更新词条为词组时,若词组内容被同时调用,则上述紧密度值为正值,否则上述紧密度值为负值,将上述更新词条的初始权值与上述紧密度值的和作为更新词条的权值,其中,上述词组内容包括组成词组的字。
紧密度值可以按照更新词条被一次性调用的次数与更新词条被调用的总次数的比值来确定。由于更新词条的初始权值是一个小数,紧密度值用于对初始权值进行修正,因此,紧密度值可以是一个百分比数值。当更新词条被一次性调用,则紧密度值取正的百分比数值,否则,紧密度值取负的百分比数值。紧密度值的具体取值根据实际情况而定。
在本实施例的一些可选的实现方式中,上述计算任意两个更新词条的二元关系值可以包括:将两个更新词条按先后顺序同时出现的次数与上述两个更新词条出现的总次数的比值作为上述两个更新词条的二元关系值。
紧密度用于表征一个更新词条被一次性调用的可能性,与紧密度不同,二元关系用于表征两个更新词条按先后顺序相邻出现的可能性。二元关系值通过两个更新词条按先后顺序同时出现的次数与上述两个更新词条各自出现和一起出现的总次数的比值来表示。
在本实施例的一些可选的实现方式中,上述通过上述权值和二元关系值确定更新词条的被调用顺序可以包括:若更新词条存在二元关系值,则按二元关系值由大到小的顺序确定更新词条的被调用顺序,否则,按权值由大到小的顺序确定更新词条的被调用顺序。
由上述描述可知,二元关系值可以根据当前的更新词条确定下一个最有可能出现的更新词条,提高输入法的输入效率。因此,在输入法输出更新词条时,首先考虑该更新词条是否存在二元关系值,若有,则根据二元关系值确定更新词条的被调用顺序;当更新词条没有二元关系值时,则按更新词条的权值大小确定被调用顺序。
图3,其示出了一种用于更新输入法词条的方法的一个实施例的流程图300,该用于更新输入法词条的方法包括:
步骤301,接收词条服务器发来的更新词条库。
在本实施例中,电子设备(例如图1所示的终端设备101、102、103)可以通过有线或无线的方式接收服务器105发来的更新词条库。
终端设备101、102、103上的输入法通过词库查找用户输入的拼音信息对应的词条。当词条服务器(服务器105)推送来更新词条库时,终端设备101、102、103将更新词条库保存至输入法的词库中。
步骤302,获取输入法的历史输入词条,基于上述历史输入词条和更新词条构建词条库。
终端设备101、102、103接收到更新词条库后,需要将更新词条库与输入法现有的词条进行组合,得到新的词条库。由于更新词条库是一定时期内出现次数很高的词条,输入法的历史输入词条是输入法所在终端设备101、102、103上的出现过的词条。因此,可以对更新词条库中的更新词条与历史输入词条进行排序,确定更新词条和历史输入词条的被调用顺序,能够提高输入法的输出准确性。其中,上述历史输入词条中的词条包含权值和/或二元关系值,上述权值用于表征词条被调用的概率,上述二元关系值用于表征两个词条按先后顺序相邻出现的概率。需要说明的是,历史输入词条包括在终端设备101、102、103上出现频率很高的词条,也包括出现频率很低的词条。为了保证词条的完备性,可以认为历史输入词条包括终端设备101、102、103上接收到更新词条库之前的输入法的词条库内的全部词条。
在本实施例的一些可选的实现方式中,上述基于上述历史输入词条和更新词条构建词条库可以包括:确定上述词条库中每个词条的被调用顺序。上述确定上述词条库中每个词条的被调用顺序可以包括:当通过用户输入的拼音信息找到对应的词条时,按照词条的二元关系值由大到小的顺序确定被调用顺序,否则,按照词条的权值由大到小的顺序确定被调用顺序;当不能通过用户输入的拼音信息找到对应的词条时,对该拼音信息进行切词,并通过切词后的拼音信息确定词条,然后通过词条的二元关系确定切词前的拼音信息对应的词条的被调用顺序。
服务器105监测到的词条都是输入法输出的词条,服务器105无法检测到输入法输出这些词条的拼音信息和输出过程。终端设备101、102、103上的输入法则是通过用户输入的拼音信息来选择对应的词条。因此,终端设备101、102、103上的输入法除了根据二元关系值、权值的大小确定词条的被调用顺序外,在无法通过二元关系值、权值的大小确定词条时,还要对用户输入的拼音关系进行切词处理。切词可以将拼音信息分解为多个可能的拼音单元,然后查找对应拼音单元的词条,然后再根据这些词条的二元关系值和权值确定其他拼音单元对应的词条,并最终确定拼音信息对应的词条。提高了输入法的输出准确率和输出效率。
继续参见图4,图4是根据本实施例的用于更新输入法词条的方法的应用场景的一个示意图。在图4的场景中,服务器105实时监测网络等多种媒体上海量词条的变化信息,得到词条A、词条B、词条C和词条D的统计数据。从图4可以看出,词条A的出现次数很高,用户数较低,说明词条A被用户经常使用;词条B的出现次数和用户数都不高,属于不常出现的词条;词条C的出现次数和用户数都很高,属于常出现的词条;词条D的出现次数不多,但用户数很多,说明词条D很可能是新出现的词条。按照对词条A、词条B、词条C和词条D的分析,可以将词条A、词条C和词条D作为更新词条。由词条A、词条C和词条D的出现次数可知,词条A和词条C的出现次数很多,可以根据出现次数为词条A和词条C设置较高的初始权值,为词条D设置较低的初始权值,并根据紧密度值对词条A、词条C和词条D的初始权值进行修正,得到词条A、词条C和词条D的权值。假设词条C和词条D具有二元关系,且词条C在先,则可以为词条C和词条D设置二元关系值,进一步加强词条C和词条D的相关性,也能使得更新词条在发送给终端设备101、102、103的输入法后确定较前的被调用顺序,提高了输入法的输出准确性和输出效率。
本申请提供的用于更新输入法词条的方法,监测词条变化信息,能够获取词条的实时变化情况;然后将出现次数较多和/或用户数较多的词条确定更新词条;最后确定更新词条的被调用顺序,并基于确定了被调用顺序的更新词条构建更新词条库,将更新词条库推送给终端,提高了输入法的输出准确性和输出效率。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于更新输入法词条的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例上述的用于更新输入法词条的装置500可以包括:监测单元501、更新词条确定单元502和更新词条库构建单元503。其中,监测单元501用于监测词条变化信息,其中,上述词条包括字、词和/或词组,上述词条变化信息包括词条在设定时期内的出现次数和使用该词条的用户数;更新词条确定单元502用于根据上述词条变化信息确定更新词条,上述更新词条为出现次数超过设定次数的词条和/或使用该词条的用户数超过设定数量的词条;更新词条库构建单元503用于确定每个更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将上述更新词条库推送给输入法所在的终端。
在本实施例的一些可选的实现方式中,上述更新词条库构建单元503可以包括:取值设置子单元(图中未示出)、二元关系值计算子单元(图中未示出)和被调用顺序确定子单元(图中未示出)。其中,取值设置子单元用于为更新词条设置权值;二元关系值计算子单元用于计算任意两个更新词条的二元关系值,上述二元关系值用于表征两个更新词条按先后顺序相邻出现的概率;被调用顺序确定子单元用于通过上述权值和二元关系值确定更新词条的被调用顺序。
在本实施例的一些可选的实现方式中,上述取值设置子单元可以包括:初始权值确定模块(图中未示出)和权值计算模块(图中未示出)。其中,初始权值确定模块用于根据更新词条的出现次数占全部更新词条的出现总次数的比例确定该更新词条的初始权值;权值计算模块用于计算更新词条的紧密度值,根据上述紧密度值对上述初始权值进行调整得到更新词条的权值,上述紧密度值通过更新词条被一次性调用的概率来表示。
在本实施例的一些可选的实现方式中,上述权值计算模块可以包括权值计算子模块(图中未示出),用于在更新词条为词组时,若词组内容被同时调用,则上述紧密度值为正值,否则上述紧密度值为负值,将上述更新词条的初始权值与上述紧密度值的和作为更新词条的权值,其中,上述词组内容包括组成词组的字。
在本实施例的一些可选的实现方式中,上述二元关系值计算子单元包括:二元关系值计算模块(图中未示出),用于将两个更新词条按先后顺序同时出现的次数与上述两个更新词条出现的总次数的比值作为上述两个更新词条的二元关系值。
在本实施例的一些可选的实现方式中,上述被调用顺序确定子单元包括:被调用顺序确定模块(图中未示出),用于在更新词条存在二元关系值时,按二元关系值由大到小的顺序确定更新词条的被调用顺序,否则,按权值由大到小的顺序确定更新词条的被调用顺序。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种用于更新输入法词条的装置的一个实施例,该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例上述的用于更新输入法词条的装置600可以包括更新词条库接收单元601和词条库构建单元602。其中,更新词条库接收单元601,用于接收词条服务器发来的更新词条库;词条库构建单元602,用于获取输入法的历史输入词条,基于上述历史输入词条和更新词条构建词条库,上述历史输入词条中的词条包含权值和/或二元关系值,其中,上述权值用于表征词条被调用的概率,上述二元关系值用于表征两个词条按先后顺序相邻出现的概率。
在本实施例的一些可选的实现方式中,上述词条库构建单元可以包括:被调用顺序确定子单元(图中未示出),用于确定上述词条库中每个词条的被调用顺序。
在本实施例的一些可选的实现方式中,上述被调用顺序确定子单元可以包括:第一被调用顺序确定模块(图中未示出)和第二被调用顺序确定模块(图中未示出)。其中,第一被调用顺序确定模块用于在通过用户输入的拼音信息找到对应的词条时,按照词条的二元关系值由大到小的顺序确定被调用顺序,否则,按照词条的权值由大到小的顺序确定被调用顺序;第二被调用顺序确定模块用于在不能通过用户输入的拼音信息找到对应的词条时,对该拼音信息进行切词,并通过切词后的拼音信息确定词条,然后通过词条的二元关系值确定切词前的拼音信息对应的词条的被调用顺序。
下面参考图7,其示出了适于用来实现本申请实施例的服务器的计算机系统700的结构示意图。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM703中,还存储有系统700操作所需的各种程序和数据。CPU701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括监测单元、更新词条确定单元和更新词条库构建单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,更新词条库构建单元还可以被描述为“用于构建更新词条库的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:监测词条变化信息,其中,上述词条包括字、词和/或词组,上述词条变化信息包括词条在设定时期内的出现次数和使用该词条的用户数;根据上述词条变化信息确定更新词条,上述更新词条为出现次数超过设定次数的词条和/或使用该词条的用户数超过设定数量的词条;确定每个更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将上述更新词条库推送给输入法所在的终端。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种用于更新输入法词条的方法,其特征在于,所述方法包括:
监测词条变化信息,其中,所述词条包括字、词和/或词组,所述词条变化信息包括词条在设定时期内的出现次数和使用该词条的用户数;
根据所述词条变化信息确定更新词条,所述更新词条为出现次数超过设定次数的词条和/或使用该词条的用户数超过设定数量的词条;
为更新词条设置权值,将两个更新词条按先后顺序同时出现的次数与所述两个更新词条出现的总次数的比值作为所述两个更新词条的二元关系值,所述二元关系值用于表征两个更新词条按先后顺序相邻出现的概率,通过所述权值和二元关系值确定更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将所述更新词条库推送给输入法所在的终端。
2.根据权利要求1所述的方法,其特征在于,所述为更新词条设置权值包括:
根据更新词条的出现次数占全部更新词条的出现总次数的比例确定该更新词条的初始权值;
计算更新词条的紧密度值,根据所述紧密度值对所述初始权值进行调整得到更新词条的权值,所述紧密度值通过更新词条被一次性调用的概率来表示。
3.根据权利要求2所述的方法,其特征在于,所述根据所述紧密度值对所述初始权值进行调整得到更新词条的权值包括:
当更新词条为词组时,若词组内容被同时调用,则所述紧密度值为正值,否则所述紧密度值为负值,将所述更新词条的初始权值与所述紧密度值的和作为更新词条的权值,其中,所述词组内容包括组成词组的字。
4.根据权利要求1所述的方法,其特征在于,所述通过所述权值和二元关系值确定更新词条的被调用顺序包括:
若更新词条存在二元关系值,则按二元关系值由大到小的顺序确定更新词条的被调用顺序,否则,按权值由大到小的顺序确定更新词条的被调用顺序。
5.一种用于更新输入法词条的方法,其特征在于,所述方法包括:
接收词条服务器发来的更新词条库;其中,所述更新词条库基于通过已确定被调用顺序后的更新词条构建得到,所述被调用顺序通过更新词条的权值和二元关系值确定得到,将两个更新词条按先后顺序同时出现的次数与所述两个更新词条出现的总次数的比值作为所述两个更新词条的二元关系值,所述二元关系值用于表征两个更新词条按先后顺序相邻出现的概率;
获取输入法的历史输入词条,基于所述历史输入词条和更新词条构建词条库,所述历史输入词条中的词条包含权值和/或二元关系值,其中,所述权值用于表征词条被调用的概率,所述二元关系值用于表征两个词条按先后顺序相邻出现的概率。
6.根据权利要求5所述的方法,其特征在于,所述基于所述历史输入词条和更新词条构建词条库包括:
确定所述词条库中每个词条的被调用顺序。
7.根据权利要求6所述的方法,其特征在于,所述确定所述词条库中每个词条的被调用顺序包括:
当通过用户输入的拼音信息找到对应的词条时,按照词条的二元关系值由大到小的顺序确定被调用顺序,否则,按照词条的权值由大到小的顺序确定被调用顺序;
当不能通过用户输入的拼音信息找到对应的词条时,对该拼音信息进行切词,并通过切词后的拼音信息确定词条,然后通过词条的二元关系值确定切词前的拼音信息对应的词条的被调用顺序。
8.一种用于更新输入法词条的装置,其特征在于,所述装置包括:
监测单元,用于监测词条变化信息,其中,所述词条包括字、词和/或词组,所述词条变化信息包括词条在设定时期内的出现次数和使用该词条的用户数;
更新词条确定单元,用于根据所述词条变化信息确定更新词条,所述更新词条为出现次数超过设定次数的词条和/或使用该词条的用户数超过设定数量的词条;
更新词条库构建单元,包括取值设置子单元、二元关系值计算子单元和被调用顺序确定子单元;其中,取值设置子单元,用于为更新词条设置权值,二元关系值计算子单元,包括二元关系值计算模块,用于将两个更新词条按先后顺序同时出现的次数与所述两个更新词条出现的总次数的比值作为所述两个更新词条的二元关系值,所述二元关系值用于表征两个更新词条按先后顺序相邻出现的概率,被调用顺序确定子单元,用于通过所述权值和二元关系值确定更新词条的被调用顺序,并基于已确定被调用顺序后的更新词条构建更新词条库,将所述更新词条库推送给输入法所在的终端。
9.根据权利要求8所述的装置,其特征在于,所述取值设置子单元包括:
初始权值确定模块,用于根据更新词条的出现次数占全部更新词条的出现总次数的比例确定该更新词条的初始权值;
权值计算模块,用于计算更新词条的紧密度值,根据所述紧密度值对所述初始权值进行调整得到更新词条的权值,所述紧密度值通过更新词条被一次性调用的概率来表示。
10.根据权利要求9所述的装置,其特征在于,所述权值计算模块包括:
权值计算子模块,用于在更新词条为词组时,若词组内容被同时调用,则所述紧密度值为正值,否则所述紧密度值为负值,将所述更新词条的初始权值与所述紧密度值的和作为更新词条的权值,其中,所述词组内容包括组成词组的字。
11.根据权利要求8所述的装置,其特征在于,所述被调用顺序确定子单元包括:
被调用顺序确定模块,用于在更新词条存在二元关系值时,按二元关系值由大到小的顺序确定更新词条的被调用顺序,否则,按权值由大到小的顺序确定更新词条的被调用顺序。
12.一种用于更新输入法词条的装置,其特征在于,所述装置包括:
更新词条库接收单元,用于接收词条服务器发来的更新词条库;其中,所述更新词条库基于通过已确定被调用顺序后的更新词条构建得到,所述被调用顺序通过更新词条的权值和二元关系值确定得到,将两个更新词条按先后顺序同时出现的次数与所述两个更新词条出现的总次数的比值作为所述两个更新词条的二元关系值,所述二元关系值用于表征两个更新词条按先后顺序相邻出现的概率;
词条库构建单元,用于获取输入法的历史输入词条,基于所述历史输入词条和更新词条构建词条库,所述历史输入词条中的词条包含权值和/或二元关系值,其中,所述权值用于表征词条被调用的概率,所述二元关系值用于表征两个词条按先后顺序相邻出现的概率。
13.根据权利要求12所述的装置,其特征在于,所述词条库构建单元包括:
被调用顺序确定子单元,用于确定所述词条库中每个词条的被调用顺序。
14.根据权利要求13所述的装置,其特征在于,所述被调用顺序确定子单元包括:
第一被调用顺序确定模块,用于在通过用户输入的拼音信息找到对应的词条时,按照词条的二元关系值由大到小的顺序确定被调用顺序,否则,按照词条的权值由大到小的顺序确定被调用顺序;
第二被调用顺序确定模块,用于在不能通过用户输入的拼音信息找到对应的词条时,对该拼音信息进行切词,并通过切词后的拼音信息确定词条,然后通过词条的二元关系值确定切词前的拼音信息对应的词条的被调用顺序。
CN201611069378.2A 2016-11-29 2016-11-29 用于更新输入法词条的方法及装置 Active CN106557178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611069378.2A CN106557178B (zh) 2016-11-29 2016-11-29 用于更新输入法词条的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611069378.2A CN106557178B (zh) 2016-11-29 2016-11-29 用于更新输入法词条的方法及装置

Publications (2)

Publication Number Publication Date
CN106557178A CN106557178A (zh) 2017-04-05
CN106557178B true CN106557178B (zh) 2021-03-09

Family

ID=58445170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611069378.2A Active CN106557178B (zh) 2016-11-29 2016-11-29 用于更新输入法词条的方法及装置

Country Status (1)

Country Link
CN (1) CN106557178B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240511A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 一种更新词库的方法、系统和一种用于更新词库的装置
CN110244861B (zh) * 2018-03-09 2024-02-02 北京搜狗科技发展有限公司 数据处理方法和装置
CN112732098A (zh) * 2019-10-12 2021-04-30 北京搜狗科技发展有限公司 一种输入的方法及相关装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和系统
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN102063504A (zh) * 2011-01-06 2011-05-18 腾讯科技(深圳)有限公司 在线输入中文的方法、客户端和系统
CN102081610A (zh) * 2009-11-27 2011-06-01 英业达股份有限公司 个人化词条显示系统及其方法
CN102209083A (zh) * 2010-03-31 2011-10-05 北京搜狗科技发展有限公司 一种用户词库同步更新方法、更新服务器及输入法系统
CN102591472A (zh) * 2011-01-13 2012-07-18 新浪网技术(中国)有限公司 一种汉字输入方法和装置
CN103984688A (zh) * 2013-04-28 2014-08-13 百度在线网络技术(北京)有限公司 一种基于本地词库提供输入候选词条的方法与设备
CN104699809A (zh) * 2015-03-20 2015-06-10 广东睿江科技有限公司 一种优选词库的控制方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023991A (zh) * 2009-09-21 2011-04-20 中兴通讯股份有限公司 在终端上更新索引并基于其对搜索结果排序的方法及装置
JP2011154061A (ja) * 2010-01-26 2011-08-11 Nec Corp 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法
JP2012194674A (ja) * 2011-03-15 2012-10-11 Omron Corp 文字変換用辞書の更新方法および文字変換用辞書の更新情報作成システム
CN104391904B (zh) * 2014-11-14 2018-10-12 北京中海纪元数字技术发展股份有限公司 面向住户调查的用户终端数据快速录入方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936893A (zh) * 2006-06-02 2007-03-28 北京搜狗科技发展有限公司 基于互联网信息的输入法词频库的生成方法和系统
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101140587A (zh) * 2007-10-15 2008-03-12 深圳市迅雷网络技术有限公司 一种搜索方法及装置
CN102081610A (zh) * 2009-11-27 2011-06-01 英业达股份有限公司 个人化词条显示系统及其方法
CN102209083A (zh) * 2010-03-31 2011-10-05 北京搜狗科技发展有限公司 一种用户词库同步更新方法、更新服务器及输入法系统
CN102063504A (zh) * 2011-01-06 2011-05-18 腾讯科技(深圳)有限公司 在线输入中文的方法、客户端和系统
CN102591472A (zh) * 2011-01-13 2012-07-18 新浪网技术(中国)有限公司 一种汉字输入方法和装置
CN103984688A (zh) * 2013-04-28 2014-08-13 百度在线网络技术(北京)有限公司 一种基于本地词库提供输入候选词条的方法与设备
CN104699809A (zh) * 2015-03-20 2015-06-10 广东睿江科技有限公司 一种优选词库的控制方法及装置

Also Published As

Publication number Publication date
CN106557178A (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
JP7166322B2 (ja) モデルを訓練するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111522967B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN105550173A (zh) 文本校正方法和装置
US20220261591A1 (en) Data processing method and apparatus
CN111460384B (zh) 策略的评估方法、装置和设备
CN106557178B (zh) 用于更新输入法词条的方法及装置
CN114385780B (zh) 程序接口信息推荐方法、装置、电子设备和可读介质
CN111932308A (zh) 数据推荐方法、装置和设备
CN111756832B (zh) 推送信息的方法、装置、电子设备及计算机可读存储介质
CN116204672A (zh) 图像识别、模型训练方法、装置、设备及存储介质
CN111563198A (zh) 一种物料召回方法、装置、设备及存储介质
CN112328896B (zh) 用于输出信息的方法、装置、电子设备和介质
CN114090601A (zh) 一种数据筛选方法、装置、设备以及存储介质
CN117113087A (zh) 模型训练方法、装置、电子设备以及存储介质
CN110738048A (zh) 一种关键词提取方法、装置及终端设备
CN113722593B (zh) 事件数据处理方法、装置、电子设备和介质
CN112507098B (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
CN112100362B (zh) 文档格式推荐模型训练方法、装置以及电子设备
CN114398484A (zh) 一种舆情分析方法、装置、设备及存储介质
CN114037060A (zh) 预训练模型的生成方法、装置、电子设备以及存储介质
CN114036391A (zh) 数据推送方法、装置、电子设备和存储介质
CN113822112A (zh) 用于确定标签权重的方法和装置
CN110688508A (zh) 图文数据扩充方法、装置及电子设备
CN111831130A (zh) 输入内容的推荐方法、终端设备以及存储介质
CN111382244B (zh) 一种深度检索匹配分类方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant