CN113010665A - 一种词处理的方法及相关装置 - Google Patents

一种词处理的方法及相关装置 Download PDF

Info

Publication number
CN113010665A
CN113010665A CN201911330907.3A CN201911330907A CN113010665A CN 113010665 A CN113010665 A CN 113010665A CN 201911330907 A CN201911330907 A CN 201911330907A CN 113010665 A CN113010665 A CN 113010665A
Authority
CN
China
Prior art keywords
user
target application
application program
target
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911330907.3A
Other languages
English (en)
Inventor
王丹
崔欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201911330907.3A priority Critical patent/CN113010665A/zh
Publication of CN113010665A publication Critical patent/CN113010665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种词处理的方法及相关装置,该方法包括:获得目标用户安装的目标应用程序;预先挖掘目标应用程序对应的用户语料和/或自定义语料获得目标应用程序的特征词,基于目标应用程序的特征词更新目标用户的输入法词库。由此可见,当目标用户安装目标应用程序,将预先挖掘得到的目标应用程序的特征词推荐给目标用户,以便在用户希望通过输入表达该目标应用程序的特征词时,该目标应用程序的特征词能够对应用户的输入数据直接匹配展示。即,该方式在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。

Description

一种词处理的方法及相关装置
技术领域
本申请涉及输入法技术领域,尤其涉及一种词处理的方法及相关装置。
背景技术
随着信息技术的快速发展,各个输入场景所涉及的词条存在较大的差异性,且新词条不断涌现。一般地,若用户希望输入某个输入场景下相对高频的词条,或者最近时间段内相对高频的新词条,在用户输入后需要将用户的输入数据与用户的输入法词库中词条进行匹配展示相关匹配词条。
但是,发明人经过研究发现,由于用户的输入法词库仅仅包括在全体用户范围上相对高频的词条,即,一些局部用户范围上相对高频的词条和新词条往往不包括在用户的输入法词库中;因此,用户的输入法词库无法提供某个输入场景下相对高频的词条或最近时间段内相对高频的新词条,直接匹配上述用户的输入数据,进而无法直接展示用户所需词条。此情况下,只能在用户的输入数据对应的已有候选词条基础上,用户主动对已有候选词条进行多次分段筛选,以得到用户所需词条,该方式使得用户付出较大的输入代价、耗费较多的输入时间,从而大大降低用户的输入体验。
发明内容
本申请所要解决的技术问题是,提供一种词处理的方法及相关装置,以便在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。
第一方面,本申请实施例提供了一种词处理的方法,该方法包括:
获得目标用户安装的目标应用程序;
基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
可选的,所述目标应用程序的特征词的获得步骤包括:
针对所述目标应用程序,收集所述用户语料和/或所述自定义语料;
基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词。
可选的,所述基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词,包括:
统计所述用户语料和/或所述自定义语料中各个分词的词频-逆文件频率;
基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词。
可选的,所述基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词,包括:
选取所述词频-逆文件频率大于等于所述预设词频-逆文件频率的分词形成目标分词集合;
基于预设标记词表过滤所述目标分词集合,获得所述目标应用程序的特征词。
可选的,在所述获得目标用户安装的目标应用程序之后,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库之前,还包括:
获得所述目标应用程序的使用情况;
对应地,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库,具体为:
若所述目标应用程序的使用情况满足预设条件,基于所述目标应用程序的特征词更新所述目标用户的输入法词库;
其中,所述使用情况包括使用频次,对应地,所述预设条件为所述使用频次大于等于预设使用频次;所述使用情况包括使用时间,对应地,所述预设条件为所述使用时间大于等于预设使用时间。
可选的,在所述获得目标用户安装的目标应用程序之后,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库之前,还包括:
向所述目标用户展示所述目标应用程序的特征词的更新权限提示框。
可选的,在所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库之后,还包括:
获取所述目标用户的输入数据;
若所述目标用户的输入数据与所述目标应用程序的特征词匹配,直接将所述目标应用程序的特征词展示给所述目标用户。
第二方面,本申请实施例提供了一种词处理的装置,该装置包括:
第一获得单元,用于获得目标用户安装的目标应用程序;
更新单元,用于基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
可选的,所述装置还包括:第二获得单元,所述第二获得单元包括收集子单元和获得子单元;
所述收集子单元,用于针对所述目标应用程序,收集所述用户语料和/或所述自定义语料;
所述获得子单元,用于基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词。
可选的,所述获得子单元包括统计模块和获得模块;
所述统计模块,用于统计所述用户语料和/或所述自定义语料中各个分词的词频-逆文件频率;
所述获得模块,用于基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词。
可选的,所述获得模块包括选取子模块和获得子模块;
所述选取子模块,用于选取所述词频-逆文件频率大于等于所述预设词频-逆文件频率的分词形成目标分词集合;
所述获得子模块,用于基于预设标记词表过滤所述目标分词集合,获得所述目标应用程序的特征词。
可选的,所述装置还包括:第三获得单元;
所述第三获得单元,用于获得所述目标应用程序的使用情况;
对应地,所述更新单元具体用于:
若所述目标应用程序的使用情况满足预设条件,基于所述目标应用程序的特征词更新所述目标用户的输入法词库;
其中,所述使用情况包括使用频次,对应地,所述预设条件为所述使用频次大于等于预设使用频次;所述使用情况包括使用时间,对应地,所述预设条件为所述使用时间大于等于预设使用时间。
可选的,所述装置还包括:第一展示单元;
所述第一展示单元,用于向所述目标用户展示所述目标应用程序的特征词的更新权限提示框。
可选的,所述装置还包括:获取单元和第二展示单元;
所述获取单元,用于获取所述目标用户的输入数据;
所述第二展示单元,用于若所述目标用户的输入数据与所述目标应用程序的特征词匹配,直接将所述目标应用程序的特征词展示给所述目标用户。
第三方面,本申请实施例提供了一种用于词处理的装置,该装置包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获得目标用户安装的目标应用程序;
基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
第四方面,本申请实施例提供了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中任一项所述的词处理的方法。
与现有技术相比,本申请至少具有以下优点:
采用本申请实施例的技术方案,首先,获得目标用户安装的目标应用程序;然后,预先挖掘目标应用程序对应的用户语料和/或自定义语料获得目标应用程序的特征词,基于目标应用程序的特征词更新目标用户的输入法词库。由此可见,当目标用户安装目标应用程序,将预先挖掘得到的目标应用程序的特征词推荐给目标用户,以便在用户希望通过输入表达该目标应用程序的特征词时,该目标应用程序的特征词能够对应用户的输入数据直接作为候选项匹配展示。即,该方式在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例中一种应用场景所涉及的系统框架示意图;
图2为本申请实施例提供的一种词处理的方法的流程示意图;
图3为本申请实施例提供的一种现有技术中目标应用程序的特征词输入示意图;
图4为本申请实施例提供的一种本申请实施例中目标应用程序的特征词输入示意图;
图5为本申请实施例提供的一种词处理的装置的结构示意图;
图6为本申请实施例提供的一种用于词处理的装置的结构示意图;
图7为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
一般地,用户的输入法词库仅仅包括在全体用户范围上相对高频的词条,而不包括局部用户范围上相对高频的词条和新词条,当用户希望输入某个输入场景下相对高频的词条,或者最近时间段内相对高频的新词条,用户的输入法词库无法提供上述某个输入场景下相对高频的词条或最近时间段内相对高频的新词条,直接匹配用户的输入数据,进而无法直接展示用户所需词条。此情况下,只能在用户的输入数据对应的已有候选词条基础上,用户主动对已有候选词条进行多次分段筛选,以得到用户所需词条,导致用户付出较大的输入代价、耗费较多的输入时间,从而大大降低用户的输入体验。
为了解决这一问题,在本申请实施例中,获得目标用户安装的目标应用程序;预先挖掘目标应用程序对应的用户语料和/或自定义语料获得目标应用程序的特征词,基于目标应用程序的特征词更新目标用户的输入法词库。由此可见,当目标用户安装目标应用程序,将预先挖掘得到的目标应用程序的特征词推荐给目标用户,以便在用户希望通过输入表达该目标应用程序的特征词时,该目标应用程序的特征词能够对应用户的输入数据直接匹配展示。即,该方式在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中,该场景包括用户终端101和处理器102。其中,用户终端101安装输入法软件,该用户终端101可以是个人计算机,也可以是其它的移动终端,如手机或平板电脑等。处理器102先获得目标用户在用户终端101安装的目标应用程序;再将目标应用程序的特征词发送至目标用户的输入法词库。
可以理解的是,在上述应用场景中,虽然将本申请实施方式的动作描述由处理器102执行,但是,本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。
可以理解的是,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
下面结合附图,通过实施例来详细说明本申请实施例中词处理的方法及相关装置的具体实现方式。
示例性方法
参见图2,示出了本申请实施例中一种词处理的方法的流程示意图。在本实施例中,所述方法例如可以包括以下步骤:
步骤201:获得目标用户安装的目标应用程序。
需要说明的是,用户的输入法词库往往不包括局部用户范围上相对高频的词条和新词条,例如,医药领域词条等。当用户希望输入某个输入场景下相对高频的词条或者最近时间段内相对高频的新词条时,用户的输入法词库无法提供上述某个输入场景下相对高频的词条或最近时间段内相对高频的新词条,直接匹配用户的输入数据,进而无法直接展示用户所需词条;只能在用户的输入数据对应的已有候选词条基础上,用户主动对已有候选词条进行多次分段筛选,以得到用户所需词条,导致用户付出较大的输入代价、耗费较多的输入时间,从而大大降低用户的输入体验。因此,在本申请实施例中,将任一用户作为目标用户,目标用户在用户终端安装的应用程序作为目标应用程序,针对目标用户,考虑到目标应用程序在一定程度上与目标用户所需局部用户范围上相对高频的词条存在相关性,首先需要获得目标用户安装的目标应用程序,即,执行步骤201。
步骤202:基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
需要说明的是,由于每个应用程序都有对应的用户语料和/或自定义语料,例如,各个用户使用应用程序过程中输入语料形成的用户语料,应用程序在研发时自行定义的语料形成的自定义语料,对应用程序对应的用户语料和/或自定义语料进行挖掘,可以得到其中相对高频的词条作为应用程序的特征词;相应地,对目标应用程序对应的用户语料和/或自定义语料进行预先挖掘可以得到目标应用程序的特征词,该目标应用程序的特征词实际上表示该目标用户所需局部用户范围上相对高频的词条。因此,在步骤201之后,需要基于目标应用程序的特征词更新目标用户的输入法词库,即,执行步骤202,以便后续用户希望输入该目标应用程序的特征词时,该目标应用程序的特征词能够对应用户的输入数据直接匹配展示
实际应用中,在获得目标应用程序的特征词时,首先,需要收集目标应用程序对应的用户语料和/或自定义语料,然后,预先设定挖掘策略得到预设挖掘策略,利用预设挖掘策略对收集的用户语料和/或自定义语料进行挖掘获得目标应用程序的特征词。因此,在本申请实施例一种可选的实施方式中,所述目标应用程序的特征词的获得步骤包括以下步骤:
步骤A:针对所述目标应用程序,收集所述用户语料和/或所述自定义语料。
步骤B:基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词。
其中,需要说明的是,目标应用程序的特征词实际上是指用户语料和/或自定义语料中相对高频的词条,则预设挖掘策略的目的是挖掘用户语料和/或自定义语料中相对高频的词条,例如,可以挖掘用户语料和/或自定义语料中词频-逆文件频率较高的分词。具体地,首先,对用户语料和/或自定义语料中各个分词进行词频-逆文件频率的统计,然后,基于先验知识等预先设定一个词频-逆文件频率作为预设词频-逆文件频率,用于衡量各个分词的词频-逆文件频率的高低,在明确各个分词的词频-逆文件频率基础上,利用预设词频-逆文件频率筛选各个分词可获得目标应用程序的特征词。因此,在本申请实施例一种可选的实施方式中,所述步骤B例如可以包括以下步骤:
步骤B1:统计所述用户语料和/或所述自定义语料中各个分词的词频-逆文件频率。
步骤B2:基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词。
可以理解的是,由于用户语料和/或自定义语料中某些词频-逆文件频率较高的分词有可能是一些全体用户范围上相对高频的词条,这些词条已经存储在目标用户的输入法词库中,没有必要作为目标应用程序的特征词发送至目标用户的输入法词库;因此,预先基于全体用户范围上相对高频的词条形成预设词表,在步骤B2具体实施时,先筛选得到词频-逆文件频率大于等于预设词频-逆文件频率的分词形成目标分词集合,再利用预设词表对目标分词集合进行过滤,以过滤属于全体用户范围上相对高频的词条的、词频-逆文件频率较高的分词,最终得到目标应用程序的特征词。即,在本申请实施例一种可选的实施方式中,所述步骤B2例如可以包括以下步骤:
步骤B21:选取所述词频-逆文件频率大于等于所述预设词频-逆文件频率的分词形成目标分词集合;
步骤B22:基于预设标记词表过滤所述目标分词集合,获得所述目标应用程序的特征词。
作为一种示例,假设目标应用程序为某中医类应用程序,经过上述步骤A-步骤B,基于某中医类应用程序对应的用户语料和/或自定义语料,预先挖掘获得的某中医类应用程序的特征词为“山慈菇”、“炮姜炭”和“肘后备急方”等。
针对上述步骤201-步骤202,还需要说明的是,由于目标应用程序的使用情况影响目标用户对目标应用程序的特征词的输入需求程度,可以设定只有当目标应用程序的使用情况满足预设条件时,表示目标用户对目标应用程序的特征词的输入需求程度较高,此情况下才需要将目标应用程序的特征词发送至目标用户的输入法词库。因此,在获得目标用户安装的目标应用程序之后,还需要获得目标应用程序的使用情况,判断目标应用程序的使用情况是否满足预设条件,只有满足的情况下,才需要将目标应用程序的特征词发送至目标用户的输入法词库。即,在本申请实施例一种可选的实施方式中,在步骤201之后、步骤202之前,例如还可以包括步骤C:获得所述目标应用程序的使用情况;对应地,所述步骤202例如具体可以为:若所述目标应用程序的使用情况满足预设条件,基于所述目标应用程序的特征词更新所述目标用户的输入法词库。
可以理解的是,一般情况下目标应用程序较为经常被使用,表示目标用户对目标应用程序的特征词的输入需求程度较高,即,使用情况可以为使用频次或使用时间,对应地,预先设置一个使用频次作为预设使用频次,预先设置一个使用时间作为预设使用时间,目标应用程序的使用频次大于等于预设使用频次,表示目标应用程序较为经常被使用,或者目标应用程序的使用时间大于等于预设使用时间,表示目标应用程序较为经常被使用。因此,在本申请实施例一种可选的实施方式中,所述使用情况包括使用频次,对应地,所述预设条件为所述使用频次大于等于预设使用频次;所述使用情况包括使用时间,对应地,所述预设条件为所述使用时间大于等于预设使用时间。
针对上述步骤201-步骤202,还需要说明的是,由于目标应用程序的特征词用于更新目标用户的输入法词库,还可以针对目标应用程序的特征词,设置更新权限提示框,在更新目标用户的输入法词库之前,向目标用户展示更新权限提示框,以便用户选择是否授权目标应用程序的特征词更新至目标用户的输入法词库;或者用户从目标应用程序的特征词中选定某些特征词更新目标用户的输入法词库。即,在本申请实施例一种可选的实施方式中,在步骤201之后、步骤202之前,例如还可以包括步骤D:向所述目标用户展示所述目标应用程序的特征词的更新权限提示框。
还需要说明的是,在步骤202基于目标应用程序的特征词更新目标用户的输入法词库之后,后续目标用户希望输入目标应用程序的特征词时,获取目标用户的输入数据,由于目标用户的输入法词库中目标应用程序的特征词与目标用户的输入数据直接匹配,不需要对目标用户的输入数据进行多次分段候选输入,可以直接将目标应用程序的特征词展示给目标用户。因此,在本申请实施例一种可选的实施方式中,在步骤202之后例如还可以包括以下步骤:
步骤E:获取所述目标用户的输入数据;
步骤F:若所述目标用户的输入数据与所述目标应用程序的特征词匹配,直接将所述目标应用程序的特征词展示给所述目标用户。
作为一种示例,目标应用程序为某中医类应用程序,某中医类应用程序的特征词为“山慈菇”、“炮姜炭”和“肘后备急方”等。对于现有技术而言,由于目标用户的输入法词库不包括上述某中医类应用程序的特征词,如图3所示的现有技术中目标应用程序的特征词输入示意图,当目标用户输入“pao'jiang'tan”后,目标用户的输入法词库无法直接提供词条“炮姜炭”匹配目标用户的输入数据“pao'jiang'tan”,只能对目标用户的输入数据“pao'jiang'tan”对应的已有候选词条基础上,用户主动对已有候选词条进行多次分段筛选,以得到用户所需词条“炮姜炭”。对于本申请而言,目标用户的输入法词库包括上述某中医类应用程序的特征词,如图4所示的本申请中目标应用程序的特征词输入示意图,当目标用户输入“pao'jiang'tan”后,获取目标用户的输入数据“pao'jiang'tan”,目标用户的输入法词库中词条“炮姜炭”能够直接匹配目标用户的输入数据“pao'jiang'tan”,则可以直接将词条“炮姜炭”对应目标用户的输入数据“pao'jiang'tan”展示给目标用户。
通过本实施例提供的各种实施方式,首先,获得目标用户安装的目标应用程序;然后,预先挖掘目标应用程序对应的用户语料和/或自定义语料获得目标应用程序的特征词,基于目标应用程序的特征词更新目标用户的输入法词库。由此可见,当目标用户安装目标应用程序,将预先挖掘得到的目标应用程序的特征词推荐给目标用户,以便在用户希望通过输入表达该目标应用程序的特征词时,该目标应用程序的特征词能够对应用户的输入数据直接匹配展示。即,该方式在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。
示例性装置
参见图5,示出了本申请实施例中一种词处理的装置的结构示意图。在本实施例中,所述装置例如具体可以包括:
第一获得单元501,用于获得目标用户安装的目标应用程序;
更新单元502,用于基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
在本申请实施例一种可选的实施方式中,所述装置还包括:第二获得单元,所述第二获得单元包括收集子单元和获得子单元;
所述收集子单元,用于针对所述目标应用程序,收集所述用户语料和/或所述自定义语料;
所述获得子单元,用于基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词。
在本申请实施例一种可选的实施方式中,所述获得子单元包括统计模块和获得模块;
所述统计模块,用于统计所述用户语料和/或所述自定义语料中各个分词的词频-逆文件频率;
所述获得模块,用于基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词。
在本申请实施例一种可选的实施方式中,所述获得模块包括选取子模块和获得子模块;
所述选取子模块,用于选取所述词频-逆文件频率大于等于所述预设词频-逆文件频率的分词形成目标分词集合;
所述获得子模块,用于基于预设标记词表过滤所述目标分词集合,获得所述目标应用程序的特征词。
在本申请实施例一种可选的实施方式中,所述装置还包括:第三获得单元;
所述第三获得单元,用于获得所述目标应用程序的使用情况;
对应地,所述更新单元502,具体用于:
若所述目标应用程序的使用情况满足预设条件,基于所述目标应用程序的特征词更新所述目标用户的输入法词库;
其中,所述使用情况包括使用频次,对应地,所述预设条件为所述使用频次大于等于预设使用频次;所述使用情况包括使用时间,对应地,所述预设条件为所述使用时间大于等于预设使用时间。
在本申请实施例一种可选的实施方式中,所述装置还包括:第一展示单元;
所述第一展示单元,用于向所述目标用户展示所述目标应用程序的特征词的更新权限提示框。
在本申请实施例一种可选的实施方式中,所述装置还包括:获取单元和第二展示单元;
所述获取单元,用于获取所述目标用户的输入数据;
所述第二展示单元,用于若所述目标用户的输入数据与所述目标应用程序的特征词匹配,直接将所述目标应用程序的特征词展示给所述目标用户。
通过本实施例提供的各种实施方式,首先,获得目标用户安装的目标应用程序;然后,将基于目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的目标应用程序的特征词,发送至目标用户的输入法词库。由此可见,当目标用户安装目标应用程序,将预先挖掘得到的目标应用程序的特征词推荐给目标用户,以便在用户希望通过输入表达该目标应用程序的特征词时,该目标应用程序的特征词能够对应用户的输入数据直接匹配展示。即,该方式在后续用户输入时明显降低用户的输入代价,较大程度上节省输入时间,大大提升用户的输入体验。
图6是根据一示例性实施例示出的一种用于词处理的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相互关联的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种词处理的方法,所述方法包括:
获得目标用户安装的目标应用程序和所述目标应用程序的使用情况;
若所述目标应用程序的使用情况满足预设条件,基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
图7是本申请实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请。任何熟悉本领域的技术人员,在不脱离本申请技术方案范围情况下,都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本申请技术方案的内容,依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本申请技术方案保护的范围内。

Claims (10)

1.一种词处理的方法,其特征在于,包括:
获得目标用户安装的目标应用程序;
基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
2.根据权利要求1所述的方法,其特征在于,所述目标应用程序的特征词的获得步骤包括:
针对所述目标应用程序,收集所述用户语料和/或所述自定义语料;
基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词。
3.根据权利要求2所述的方法,其特征在于,所述基于预设挖掘策略挖掘所述用户语料和/或所述自定义语料,获得所述目标应用程序的特征词,包括:
统计所述用户语料和/或所述自定义语料中各个分词的词频-逆文件频率;
基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词。
4.根据权利要求3所述的方法,其特征在于,所述基于各个所述分词的词频-逆文件频率和预设词频-逆文件频率,筛选获得所述目标应用程序的特征词,包括:
选取所述词频-逆文件频率大于等于所述预设词频-逆文件频率的分词形成目标分词集合;
基于预设标记词表过滤所述目标分词集合,获得所述目标应用程序的特征词。
5.根据权利要求1所述的方法,其特征在于,在所述获得目标用户安装的目标应用程序之后,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库之前,还包括:
获得所述目标应用程序的使用情况;
对应地,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库,具体为:
若所述目标应用程序的使用情况满足预设条件,基于所述目标应用程序的特征词更新所述目标用户的输入法词库;
其中,所述使用情况包括使用频次,对应地,所述预设条件为所述使用频次大于等于预设使用频次;所述使用情况包括使用时间,对应地,所述预设条件为所述使用时间大于等于预设使用时间。
6.根据权利要求1所述的方法,其特征在于,在所述获得目标用户安装的目标应用程序之后,所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库之前,还包括:
向所述目标用户展示所述目标应用程序的特征词的更新权限提示框。
7.根据权利要求1所述的方法,其特征在于,在所述基于所述目标应用程序的特征词更新所述目标用户的输入法词库之后,还包括:
获取所述目标用户的输入数据;
若所述目标用户的输入数据与所述目标应用程序的特征词匹配,直接将所述目标应用程序的特征词展示给所述目标用户。
8.一种词处理的装置,其特征在于,包括:
第一获得单元,用于获得目标用户安装的目标应用程序;
更新单元,用于基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
9.一种用于词处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获得目标用户安装的目标应用程序;
基于所述目标应用程序的特征词更新所述目标用户的输入法词库;所述目标应用程序的特征词是基于所述目标应用程序对应的用户语料和/或自定义语料预先挖掘获得的。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中任一项所述的词处理的方法。
CN201911330907.3A 2019-12-20 2019-12-20 一种词处理的方法及相关装置 Pending CN113010665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911330907.3A CN113010665A (zh) 2019-12-20 2019-12-20 一种词处理的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911330907.3A CN113010665A (zh) 2019-12-20 2019-12-20 一种词处理的方法及相关装置

Publications (1)

Publication Number Publication Date
CN113010665A true CN113010665A (zh) 2021-06-22

Family

ID=76382602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911330907.3A Pending CN113010665A (zh) 2019-12-20 2019-12-20 一种词处理的方法及相关装置

Country Status (1)

Country Link
CN (1) CN113010665A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
CN102982070A (zh) * 2012-10-26 2013-03-20 北京百度网讯科技有限公司 用于输入法应用程序的词库更新方法、系统和云端服务器
WO2016127459A1 (zh) * 2015-02-12 2016-08-18 深圳市前海安测信息技术有限公司 智能交互系统中未登录词的识别方法和装置
CN106095128A (zh) * 2016-06-14 2016-11-09 维沃移动通信有限公司 一种移动终端的文字输入方法及移动终端
CN106201010A (zh) * 2016-06-29 2016-12-07 百度在线网络技术(北京)有限公司 词库添加方法和装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN107346182A (zh) * 2016-05-05 2017-11-14 北京搜狗科技发展有限公司 一种构建用户词库的方法、及用于构建用户词库的装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334774A (zh) * 2007-06-29 2008-12-31 北京搜狗科技发展有限公司 一种字符输入的方法和输入法系统
CN102982070A (zh) * 2012-10-26 2013-03-20 北京百度网讯科技有限公司 用于输入法应用程序的词库更新方法、系统和云端服务器
WO2016127459A1 (zh) * 2015-02-12 2016-08-18 深圳市前海安测信息技术有限公司 智能交互系统中未登录词的识别方法和装置
CN107346182A (zh) * 2016-05-05 2017-11-14 北京搜狗科技发展有限公司 一种构建用户词库的方法、及用于构建用户词库的装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN106095128A (zh) * 2016-06-14 2016-11-09 维沃移动通信有限公司 一种移动终端的文字输入方法及移动终端
CN106201010A (zh) * 2016-06-29 2016-12-07 百度在线网络技术(北京)有限公司 词库添加方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘琼等: "五笔打字+电脑办公从入门到精通", 30 June 2011, 《北京:中国铁道出版社》, pages: 7 - 9 *
杜明宝等: "计算机基础与应用", 30 June 1998, 《中国商业出版社》, pages: 208 - 209 *
王明亭等: "信息技术基础知识", 30 September 2013, 《天津:南开大学出版社》, pages: 64 - 67 *

Similar Documents

Publication Publication Date Title
US9942690B2 (en) Method and device for information push
CN109961791B (zh) 一种语音信息处理方法、装置及电子设备
US20160314164A1 (en) Methods and devices for sharing cloud-based business card
CN110796094A (zh) 基于图像识别的控制方法及装置、电子设备和存储介质
CN110717399A (zh) 人脸识别方法和电子终端设备
CN110019885B (zh) 一种表情数据推荐方法及装置
CN104850643B (zh) 图片对比方法和装置
CN110648657B (zh) 一种语言模型训练方法、构建方法和装置
CN108573697B (zh) 一种语言模型更新方法、装置及设备
CN109145151B (zh) 一种视频的情感分类获取方法及装置
CN112784151A (zh) 一种确定推荐信息的方法及相关装置
CN112130839A (zh) 一种构建数据库、语音编程的方法及相关装置
CN113010665A (zh) 一种词处理的方法及相关装置
CN113946228A (zh) 语句推荐方法、装置、电子设备和可读存储介质
CN106557559B (zh) 一种图像处理的方法和装置
CN110784721A (zh) 一种图片数据压缩方法、装置、电子设备及存储介质
CN112242142B (zh) 一种语音识别输入的方法及相关装置
CN112766737B (zh) 一种确定广告投放物料风险的方法及相关装置
CN114168771A (zh) 一种构建配图库的方法及相关装置
CN112732098A (zh) 一种输入的方法及相关装置
CN107544965B (zh) 一种优化静态词库尺寸的方法及电子设备
CN112817462A (zh) 一种数据处理的方法及相关装置
CN114594862A (zh) 一种推荐方法、装置和电子设备
CN114201665A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN109213799B (zh) 一种细胞词库的推荐方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination