CN108319377A - 场景化文字输入的方法及系统、终端以及计算机可读存储介质 - Google Patents

场景化文字输入的方法及系统、终端以及计算机可读存储介质 Download PDF

Info

Publication number
CN108319377A
CN108319377A CN201810124920.2A CN201810124920A CN108319377A CN 108319377 A CN108319377 A CN 108319377A CN 201810124920 A CN201810124920 A CN 201810124920A CN 108319377 A CN108319377 A CN 108319377A
Authority
CN
China
Prior art keywords
word
information
user
input
candidate word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810124920.2A
Other languages
English (en)
Other versions
CN108319377B (zh
Inventor
马鸣
秦添
孟可丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810124920.2A priority Critical patent/CN108319377B/zh
Publication of CN108319377A publication Critical patent/CN108319377A/zh
Application granted granted Critical
Publication of CN108319377B publication Critical patent/CN108319377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种场景化文字输入的方法及系统、终端以及计算机可读存储介质。该场景化文字输入的方法包括:接收用户当前输入的按键信息,根据所述按键信息组合成多个候选词;获取用户当前的场景信息和历史的输入信息,并将当前的场景信息和历史的输入信息汇总成高维度特征向量;根据高维度特征向量,确定各个所述候选词在当前场景中的词频;以及按照词频的高低,向用户输出所述候选词的排序。通过本发明的场景化文字输入的方法,能够根据用户所处的场景来确定候选词,使候选词排序与用户在该场景的输入相契合。

Description

场景化文字输入的方法及系统、终端以及计算机可读存储 介质
技术领域
本发明涉及通信技术领域,尤其涉及一种场景化文字输入的方法及系统、终端以及计算机可读存储介质。
背景技术
随着输入法技术的不断提升,用户对输入准确性的要求也越来越高,普通的输入法词库已经无法满足用户在不同输入场景下的需求。同一串输入码,用户在不同的场景下输入时,所期望得到的候选词也不相同。举例来说,当用户输入“dama”这串输入码的时候,在新闻类的场景下,可能更期望出现“大妈”作为候选词;而在购物类的场景下,则“大码”则更符合预期。
因此,如何能够根据用户所处的场景来确定候选词,使候选词排序与用户所在场景相契合,是大家十分关注的问题。
发明内容
本发明实施例提供一种场景化文字输入的方法、系统和终端,以解决现有技术中的以上的一个或多个技术问题,或至少提供一种有益的选择。
第一方面,本发明实施例提供了一种场景化文字输入的方法,所述方法包括:
接收用户当前输入的按键信息,根据所述按键信息组合成多个候选词;
获取用户当前的场景信息和历史的输入信息,并将当前的所述场景信息和历史的所述输入信息汇总成高维度特征向量;
根据高维度特征向量,确定各个所述候选词在当前场景中的词频;以及
按照词频的高低,向用户输出所述候选词的排序。
优选地或可选地,所述按键信息包括用户输入的按键序列,以及按键时间、按键坐标、按键压力和触摸面积中的至少一种。
结合第一方面,本发明在第一方面的第一种实施方式中,所述方法还包括:
所述根据所述按键信息组合成多个候选词,包括:
根据所述按键序列,组合生成多个初选词;以及
根据所述按键时间和/或所述按键坐标和/或所述按键压力和/或所述触摸面积,对所述初选词进行筛选,经筛选后生成所述候选词。
结合第一方面、第一方面的第一种实施方式,本发明在第一方面的第二种实施方式中,所述将所述场景信息和所述历史信息汇总成高维度特征向量,包括:
根据用户历史的所述输入信息,通过机器学习,生成第一初始特征向量;
根据用户当前的所述场景信息,通过机器学习,生成第二初始特征向量;以及
将所述第一初始特征向量和所述第二初始特征向量进行加权,生成所述高维度特征向量;
其中,所述场景信息包括用户的终端信息、位置信息和操作信息中的至少一种;所述输入信息包括用户的特征信息、行为信息和意图信息中的至少一种。
结合第一方面、第一方面的第一种实施方式和第一方面的第二种实施方式,本发明在第一方面的第三种实施方式中,服务器中存储有候选词的向量区间与词频的映射表;
所述根据高维度特征向量,确定各个所述候选词在当前场景中的词频包括:
根据所述高维度特征向量,计算出各个所述候选词对应的向量区间;以及
根据所述候选词对应的向量区间查找映射表,以确定所述候选词对应的词频。
结合第一方面、第一方面的第一种实施方式和第一方面的第二种实施方式,本发明在第一方面的第四种实施方式中,服务器中存储有各个候选词的原始向量;
所述根据高维度特征向量,确定各个所述候选词在当前场景中的词频包括:
对所述高维度特征向量和所述候选词的原始向量做乘积运算,以得到调整标量;以及
根据调整标量对原始词频进行运算调整,以确定所述候选词的词频。
第二方面,本发明实施例提供了一种场景化文字输入的系统,包括:
输入接收单元,配置用于接收用户当前输入的按键信息,根据所述输按键信息组合成多个候选词;
场景检测单元,配置用于获取用户当前的场景信息和历史的输入信息,并将所述场景信息和所述输入信息汇总成高维度特征向量;
词频计算单元,配置用于根据高维度特征向量,确定各个所述候选词在当前场景中的词频;以及
输出反馈单元,配置用于按照词频高低,向用户输出所述候选词的排序。
结合第二方面,本发明在第二方面的第一种实施方式中,所述按键信息包括用户输入的按键序列,以及按键时间、按键坐标、按键压力和触摸面积中的至少一种;
所述输入接收单元包括:
接收单元,配置用于接收用户当前输入的按键信息;
初选词生成单元,配置用于根据所述按键序列,组合生成多个初选词;
候选词筛选单元,配置用根据所述按键时间和/或所述按键坐标和/或所述按键压力和/或所述触摸面积,对所述初选词进行筛选,经筛选后形成所述候选词。
结合第二方面和第二方面的第一种实施方式,本发明在第二方面的第二种实施方式中,所述场景检测单元包括:
信息获取单元,配置用于获取用户当前的场景信息和历史的输入信息;
输入信息计算单元,配置用于根据用户历史的所述输入信息,通过机器学习,生成第一初始特征向量;
场景信息计算单元,配置用于根据用户当前的所述场景信息,通过机器学习,生成第二初始特征向量;
特征向量计算单元,配置用于将所述第一初始特征向量和所述第二初始特征向量进行加权,生成所述高维度特征向量;
其中,当前的所述场景信息包括用户的终端信息、位置信息和操作信息中的至少一种;历史的所述输入信息包括用户的特征信息、行为信息和意图信息中的至少一种。
结合第二方面、第二方面的第一种实施方式和第二方面的第二种实施方式,本发明在第二方面的第三种实施方式中,服务器中存储有向量区间与词频的映射表;
所述词频计算单元包括:
计算向量区间单元,配置用于根据所述高维度特征向量,计算出各个所述候选词对应的向量区间;以及
查找词频单元,配置用于根据所述候选词对应的向量区间查找映射表,以确定所述候选词对应的词频。
结合第二方面、第二方面的第一种实施方式和第二方面的第二种实施方式,本发明在第二方面的第四种实施方式中,所述服务器中存储有各个候选词的原始向量;
所述词频计算单元包括:
标量计算单元,配置用于对所述高维度特征向量和所述候选词的原始向量做乘积运算,以得到调整标量;以及
词频调整单元,配置用于根据调整标量对原始词频进行运算调整,以确定所述候选词的词频。
第三方面,本发明实施例提供了一种场景化文字输入的终端,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任一所述场景化文字输入的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面中任一种所述场景化文字输入的方法。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过本发明的场景化文字输入的方法,能够根据用户所处的场景来确定候选词,使候选词排序与用户在该场景的输入相契合。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出了根据本发明一个实施例的场景化文字输入的方法100的流程图;
图2示出了根据本发明另一个实施例的场景化文字输入的方法200的流程图;
图3示出了根据本发明另一个实施例的场景化文字输入的方法300的流程图;
图4示出了根据本发明另一个实施例的场景化文字输入的方法400的流程图;
图5示出了根据本发明另一个实施例的场景化文字输入的方法500的流程图;
图6示出了根据本发明一个实施例的场景化文字输入的系统600的结构框图;
图7示出了根据本发明另一个实施例的场景化文字输入的系统700的结构框图;
图8示出了根据本发明另一个实施例的场景化文字输入的系统800的结构框图;
图9示出了根据本发明另一个实施例的场景化文字输入的系统900的结构框图;
图10示出了根据本发明另一个实施例的场景化文字输入的系统1000的结构框图;以及
图11示出了根据本发明的场景化文字输入的终端的示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下面结合图1至图11所示,对本发明的场景化文字输入的方法、系统及终端进行描述。
参见图1所示,本发明一个实施例的场景化文字输入的方法100,包括步骤S101至步骤S104。
首先,通过输入接收步骤S101,接收用户当前输入的按键信息,按键信息包括但不限于:输入的拼音串或单词串,例如:dama,morning。根据用户所输入的按键信息可以组合成多个候选词,以拼音串“dama”为例,可以组合成候选词“大妈”、“大马”、“大码”、“打码”等。
然后,通过场景检测步骤S102,获取用户当前的场景信息和历史的输入信息。并且,将当前的场景信息和历史的输入信息可以通过机器学习等方法汇总成高维度特征向量。
其中,当前的场景信息包括但不限于:用户的终端信息,例如:PC端、智能手机端(包括品牌、型号等)、移动平板(包括品牌、型号等)或者车载输入设备等;用户的操作信息,例如:当前在操作的APP,当前在进行的购物操作、搜索操作、浏览新闻操作、发表评论操作及游戏娱乐操作等;用户的位置信息,例如:当前的城市地区、当前的状态(静止、步行、乘车或乘机等)、当前的商铺及景点等。
历史的输入信息包括但不限于:用户的特征信息,例如:年龄、性别、爱好、收入状况等;用户的行为信息,例如:用户之前浏览过哪些页面、使用过哪些APP、去过哪些旅游景点、搜索过哪些内容、看过哪些新闻及购买过哪些物品等;用户的意图信息,例如:最近一段时间打算做的事等。
在一种实施例中,当用户正在使用购物APP,位置在北京,并且最近有买衣服的打算时,可以得到高维特征向量{购物,北京,衣服}。
接着,通过词频计算步骤S103,根据高维度特征向量,确定各个候选词在当前场景中的词频。例如,根据高维特征向量{购物,北京,衣服}与候选词“大妈”、“大马”、“大码”、“打码”之间的计算或者映射,得到用户正在使用购物APP,位置在北京,并且最近有买衣服的打算时的各个候选词的词频。具体地,可参见下文图4和图5中实施方式的描述。
最后,通过输出反馈步骤S104,按照词频高低,向用户输出候选词的排序。从而,可以得到与用户所在场景相契合的几个候选词。在一种实施例中,在用户正在使用购物APP,位置在北京,并且最近有买衣服的打算的这个场景中,候选词大妈对应的词频可能是30,大马对应的词频可能是10,大码对应的词频可能是50,打码对应的词频可能是20。从而,可以得到各个候选词在该场景中的词频。并且,根据词频的排序,可以得到与购物类APP场景相契合的候选词可能是“大码、大妈和打码”,而候选词“大码”的词频会较高,因此,候选词“大码”可以优选向用户输出。
本发明的场景化文字输入的方法,能够根据用户所处的场景,生成高维度特征向量,并通过高维度特征向量来确定候选词的词频,从而,使得候选词的排序与用户所在的场景相契合,满足了用户需求,提高了用户在使用时的体验质量。
参见图2所示,本发明一个实施例的场景化文字输入的方法200。方法200与图1所示实施例中的方法100的不同之处在于提供了输入接收步骤S101的一种实现方式。
在一种实施例中,用户在输入按键时,会因为操作问题,按到与目标键相邻或者发音相近的按键,从而形成了模糊输入。例如:当用户想输入拼音串“dama”时,可能会按到与目标键m相邻的按键n或按到与目标键d相邻的按键f,出现模糊输入“dano”、“fama”;也可能会按到与目标键a发音相近的按键o,出现模糊输入“damo”等。那么,需要在用户的模糊输入中,进行筛选,以筛选出与用户输入意图契合的候选词。
参见图2所示,输入接收步骤S101,进一步包括接收步骤S1011、初选词生成步骤S1012和候选词筛选步骤S1013。
接收步骤S1011,接收用户当前输入的按键信息。其中,按键信息包括用户输入的按键序列,在一种实施例中,按键序列可以为当前输入的字符串“d、a、m、a、f、s、n”等。优选地,按键信息还包括用户在输入按键或者按动按键时的按键时间、按键坐标、按键压力和触摸面积中的至少一种。
然后,通初选词生成步骤S1012,根据按键序列,组合生成多个初选词。例如,按键序列“d、a、m、a、f、s、n”可以组合生成初选词“sama”、“fama”、“dama”等。
接着,在候选词筛选步骤S1013中,可以根据按键时间和/或按键坐标和/或按键压力和/或触摸面积,对初选词进行筛选,经筛选后形成候选词。例如:可以根据用户输入时,在按键“s”上的停留时间相对其他按键短,那么可以判断按键“s”为模糊按键,可以筛出;还可以根据用户在按键“f”上的施力点偏向于按键的角落,即,按键坐标处于角落位置,判断按键“f”为模糊按键,可以筛出;也可以根据用户在按键“n”上的按动压力较小或者与按键“n”的接触面积较小,判断按键“n”为模糊按键,可以筛出。从而,可以筛出初选词“sama”、“fama”,形成候选词的拼音串“dama”,以组合成候选词“大妈”、“大马”、“大码”、“打码”等。
参见图3所示,本发明一个实施例的场景化文字输入的方法300。方法300与图1所示实施例中的方法100的不同之处在于提供了场景检测步骤S102的一种实现方式。
参见图3所示,场景检测步骤S102,进一步包括信息获取步骤S1021、输入信息计算步骤S1022、场景信息计算步骤S1023和特征向量计算步骤S1024。
信息获取步骤S1021,获取用户当前的场景信息和历史的输入信息。
输入信息计算步骤S1022,根据用户历史的输入信息,通过机器学习,生成第一初始特征向量。在一种实施例中,根据用户的特征信息、行为信息和意图信息中的至少一种,通过机器学习,生成第一初始特征向量。其中,特征信息、行为信息和意图信息已在上文进行描述,在这里不再赘述。
场景信息计算步骤S1023,根据用户当前的场景信息,通过机器学习,生成第二初始特征向量。在一种实施例中,根据终端信息、位置信息和操作信息中的至少一种,通过机器学习,生成第二初始特征向量。其中,终端信息、位置信息和操作信息已在上文进行描述,在这里不再赘述。
特征向量计算步骤S1024,将第一初始特征向量和第二初始特征向量进行加权,生成高维度特征向量。
参见图4所示,本发明一个实施例的场景化文字输入的方法400。方法400与图1所示实施例中的方法100的不同之处在于提供了词频计算步骤S103的一种实现方式。
参见图4所示,词频计算步骤S103,进一步包括计算向量区间步骤S1031和查找词频步骤S1032。
在一种实施例中,服务器中存储有候选词的向量区间与词频的映射表。
在计算向量区间步骤S1031中,可以根据高维度特征向量,计算出各个候选词对应的向量区间。例如,当用户正在使用购物APP,位置在北京,并且最近有买衣服的打算时,高维特征向量可以为{购物,北京,衣服},候选词为“大妈”、“大马”、“大码”、“打码”时,候选词“大妈”可以在高维特征向量中映射得到向量区间{大妈,购物,北京,衣服}或{大妈,购物}或{大妈,北京,衣服}等;候选词“大马”可以在高维特征向量中映射得到向量区间{大马,购物,北京,衣服}或{大马,北京}或{大马,购物,衣服}等;候选词“大码”可以在高维特征向量中映射得到向量区间{大码,购物,北京,衣服}或{大码,衣服}或{大码,购物,北京}等;候选词“打码”可以在高维特征向量中映射得到向量区间{打码,购物,北京,衣服}或{打码,衣服}或{打码,购物,衣服}等。
在查找词频步骤S1032中,再根据候选词对应的向量区间查找映射表,从而,可以确定候选词对应的词频。例如,映射表中记载的向量区间{大妈,购物,北京,衣服}对应的词频可能是30,{大马,购物,北京,衣服}对应的词频可能是10,{大码,购物,北京,衣服}对应的词频可能是50,{打码,购物,北京,衣服}对应的词频可能是20。从而,可以确定候选词“大码”在此场景下(用户正在使用购物APP,位置在北京,并且最近有买衣服的打算)的词频是50,候选词“大妈”在此场景下的词频是30,候选词“打码”在此场景下的词频是20,候选词“大马”在此场景下的词频是10。
在一种实施例中,当高维特征向量只有一维时,例如,该维度为用户正在使用的APP,即用户的操作信息。那么,在使用购物类APP的场景中,“大妈”、“大马”、“大码”、“打码”等候选词,通过高维度特征向量进行计算和映射,候选词“大妈”可以得到向量区间{大妈,购物},候选词“大马”可以得到向量区间{大马,购物},候选词“大码”可以得到向量区间{大码,购物},候选词“打码”可以得到向量区间{打码,购物}。然后,根据向量区间{大妈,购物}、{大马,购物}、{大码,购物}和{打码,购物}去查找映射表。映射表中向量区间{大妈,购物}对应的词频可能是30,{大马,购物}对应的词频可能是10,{大码,购物}对应的词频可能是50,{打码,购物}对应的词频可能是20。从而,可以得到各个候选词在该场景中的词频,并且,可以看出,在购物类APP的场景中,候选词“大码”的词频会较高,可以优选向用户反馈输出“大码”。
在一种实施例中,每个候选词都有各自的原始词频,其中,原始词频来自于对海量场景下各个词的出现次数的统计,并将统计结果进行压缩,最终得到的数值。如果其当前对应的向量区间无法对应到映射表中的任何的词频,则使用原始词频。而如果候选词对应的向量区间在映射表中所对应的词频为0,则认为该词不适合于在这个场景下出现。
参见图5所示,本发明一个实施例的场景化文字输入的方法500。方法500与图1所示实施例中的方法100的不同之处在于提供了词频计算步骤S103的另一种实现方式。
参见图5所示,词频计算步骤S103,进一步包括标量计算步骤S1031’和词频调整步骤S1032’。
在一种实施例中,服务器中存储有各个候选词的原始向量。其中,原始向量是通过在海量语聊环境中对各个词语进行词频统计而得到的向量值。
在标量计算步骤S1031’中,可以对高维度特征向量和候选词的原始向量做乘积运算。例如,当候选词“大码”经过词频统计,得到其在购物类APP中的词频是90,在新闻类APP中的词频是60,在广告类APP中的词频是30,那么候选词“大码”的原始向量为(90,60,30)。而当用户手机中存在购物类APP、新闻类APP和广告类APP,并且用户正在使用购物类APP时,可以用“1”代表“正在使用”,用“0”代表“未使用”。从而,高维特征向量所对应的向量值可以由(1,0,0)来表示。此时,将(90,60,30)与(1,0,0)做乘积运算得到数值90,数值90即为可以得到在用户使用购物类APP的场景下的调整标量。
并且,在词频调整步骤S1032’中,根据调整标量对原始词频进行运算调整,从而,确定候选词的词频。其中,原始词频已在上文进行说明,在这不再赘述。在一种实施例中,可以将调整标量与原始词频进行相加,实现加性调整;也可以将调整标量与原始词频进行相乘,实现乘性调整;还可以将原始词频作为底数,将调整标量作为指数,实现指数级调整。当然,还可以混合使用上述的加性调整、乘性调整和指数级重调整,以实现复合调整。
进一步地,在进行调整的同时,还可以对未命中场景的候选词进行负向的调整。例如,在购物类APP里,候选词“大马”没有命中该场景,那么可以将其词频调低。
参见图6所示,本发明一个实施例的场景化文字输入的系统600。系统600包括:输入接收单元601、场景检测单元602、词频计算单元603和输出反馈单元604。
输入接收单元601,配置用于接收用户当前输入的按键信息,根据输按键信息组合成多个候选词。
场景检测单元602,配置用于获取用户当前的场景信息和历史的输入信息,并将当前的场景信息和历史的输入信息汇总成高维度特征向量。
词频计算单元603,配置用于根据高维度特征向量,确定各个候选词在当前场景中的词频。
输出反馈单元604,配置用于按照词频高低,向用户输出候选词的排序。
具体地,图6所示的场景化文字输入的系统600与图1所示的场景化文字输入的方法100相对应。图6所示的系统的具体实现方式参照图1所示的方法的实施例中的描述。
参见图7所示,本发明一个实施例的场景化文字输入的系统700。系统700与图6所示实施例中的系统600的不同之处在于提供了输入接收单元601的一种实现方式。
输入接收单元601包括接收单元6011、初选词生成单元6012和候选筛选单元6013。
接收单元6011,配置用于接收用户当前输入的按键信息。
初选词生成单元6012,配置用于根据按键序列,组合生成多个初选词。
候选词筛选单元6013,配置用根据按键时间和/或按键坐标和/或按键压力和/或触摸面积,对初选词进行筛选,经筛选后形成候选词。
其中,按键信息包括用户输入的按键序列,以及按键时间、按键坐标、按键压力和触摸面积中的至少一种。
具体地,图7所示的场景化文字输入的系统700与图2所示的场景化文字输入的方法200相对应。图7所示的系统的具体实现方式参照图2所示的方法的实施例中的描述。
参见图8所示,本发明一个实施例的场景化文字输入的系统800。系统800与图6所示实施例中的系统600的不同之处在于提供了场景检测单元602的一种实现方式。
场景检测单元602包括信息获取单元6021、输入信息计算单元6022、场景信息计算单元6023和特征向量计算单元6024。
信息获取单元6021,配置用于获取用户当前的场景信息和历史的输入信息。
输入信息计算单元6022,配置用于根据用户历史的输入信息,通过机器学习,生成第一初始特征向量。
场景信息计算单元6023,配置用于根据用户当前的场景信息,通过机器学习,生成第二初始特征向量。
特征向量计算单元6024,配置用于将第一初始特征向量和第二初始特征向量进行加权,生成高维度特征向量。
其中,当前的场景信息包括用户的终端信息、位置信息和操作信息中的至少一种;历史的输入信息包括用户的特征信息、行为信息和意图信息中的至少一种。
具体地,图8所示的场景化文字输入的系统800与图3所示的场景化文字输入的方法300相对应。图8所示的系统的具体实现方式参照图3所示的方法的实施例中的描述。
参见图9所示,本发明一个实施例的场景化文字输入的系统900。系统900与图6所示实施例中的系统600的不同之处在于提供了词频计算单元603的一种实现方式。
在一种实施例中,服务器中存储有候选词的向量区间与词频的映射表。
词频计算单元603包括计算对应的计算向量区间单元6031和查找词频单元6032。
计算向量区间单元6031,配置用于根据高维度特征向量,计算出各个候选词的对应的向量区间。
查找词频单元6032,配置用于根据候选词对应的向量区间查找映射表,以确定候选词对应的词频。
具体地,图9所示的场景化文字输入的系统900与图4所示的场景化文字输入的方法400相对应。图9所示的系统的具体实现方式参照图4所示的方法的实施例中的描述。
参见图10所示,本发明一个实施例的场景化文字输入的系统1000。系统1000与图6所示实施例中的系统600的不同之处在于提供了词频计算单元603的另一种实现方式。
在一种实施例中,服务器中存储有各个候选词的原始向量。
词频计算单元603包括标量计算单元6031’和词频调整单元6032’。
标量计算单元6031’,配置用于对高维度特征向量和候选词的原始向量做乘积运算,以得到调整标量。
词频调整单元6032’,配置用于根据调整标量对原始词频进行运算调整,以确定候选词的词频。
具体地,图10所示的场景化文字输入的系统1000与图5所示的场景化文字输入的方法500相对应。图10所示的系统的具体实现方式参照图5所示的方法的实施例中的描述。
参见图11所示,一种场景化文字输入的终端包括存储器710和处理器720。存储器710内存储有可在处理器720上运行的计算机程序。处理器720执行计算机程序时实现上述实施例中的场景化文字输入的方法。存储器710和处理器720的数量可以为一个或多个。
该服务器还包括:
通信接口730,用于与外界设备进行通信,进行数据交互传输。
存储器710可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器710、处理器720和通信接口730独立实现,则存储器710、处理器720和通信接口730可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器710、处理器720及通信接口730集成在一块芯片上,则存储器710、处理器720及通信接口730可以通过内部接口完成相互间的通信。
在一种实施例中,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一种所述场景化文字输入的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种场景化文字输入的方法,其特征在于,所述方法包括:
接收用户当前输入的按键信息,根据所述按键信息组合成多个候选词;
获取用户当前的场景信息和历史的输入信息,并将当前的所述场景信息和历史的所述输入信息汇总成高维度特征向量;
根据高维度特征向量,确定各个所述候选词在当前场景中的词频;以及
按照词频的高低,向用户输出所述候选词的排序。
2.根据权利要求1所述的方法,其特征在于,所述按键信息包括用户输入的按键序列,以及按键时间、按键坐标、按键压力和触摸面积中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述根据所述按键信息组合成多个候选词,包括:
根据所述按键序列,组合生成多个初选词;以及
根据所述按键时间和/或所述按键坐标和/或所述按键压力和/或所述触摸面积,对所述初选词进行筛选,经筛选后生成所述候选词。
4.根据权利要求3所述的方法,其特征在于,所述将所述场景信息和所述历史信息汇总成高维度特征向量,包括:
根据用户历史的所述输入信息,通过机器学习,生成第一初始特征向量;
根据用户当前的所述场景信息,通过机器学习,生成第二初始特征向量;以及
将所述第一初始特征向量和所述第二初始特征向量进行加权,生成所述高维度特征向量;
其中,所述场景信息包括用户的终端信息、位置信息和操作信息中的至少一种;所述输入信息包括用户的特征信息、行为信息和意图信息中的至少一种。
5.根据权利要求1-4任一项权利要求所述的方法,其特征在于,服务器中存储有候选词的向量区间与词频的映射表;
所述根据高维度特征向量,确定各个所述候选词在当前场景中的词频包括:
根据所述高维度特征向量,计算出各个所述候选词对应的向量区间;以及
根据所述候选词对应的向量区间查找映射表,以确定所述候选词对应的词频。
6.根据权利要求1-4任一项权利要求所述的方法,其特征在于,服务器中存储有各个候选词的原始向量;
所述根据高维度特征向量,确定各个所述候选词在当前场景中的词频包括:
对所述高维度特征向量和所述候选词的原始向量做乘积运算,以得到调整标量;以及
根据调整标量对原始词频进行运算调整,以确定所述候选词的词频。
7.一种场景化文字输入的系统,其特征在于,所述系统包括:
输入接收单元,配置用于接收用户当前输入的按键信息,根据所述输按键信息组合成多个候选词;
场景检测单元,配置用于获取用户当前的场景信息和历史的输入信息,并将当前的所述场景信息和历史的所述输入信息汇总成高维度特征向量;
词频计算单元,配置用于根据高维度特征向量,确定各个所述候选词在当前场景中的词频;以及
输出反馈单元,配置用于按照词频高低,向用户输出所述候选词的排序。
8.根据权利要求7所述的系统,其特征在于,所述按键信息包括用户输入的按键序列,以及按键时间、按键坐标、按键压力和触摸面积中的至少一种;
所述输入接收单元包括:
接收单元,配置用于接收用户当前输入的按键信息;
初选词生成单元,配置用于根据所述按键序列,组合生成多个初选词;
候选词筛选单元,配置用根据所述按键时间和/或所述按键坐标和/或所述按键压力和/或所述触摸面积,对所述初选词进行筛选,经筛选后形成所述候选词。
9.根据权利要求8所述的系统,其特征在于,所述场景检测单元包括:
信息获取单元,配置用于获取用户当前的场景信息和历史的输入信息;
输入信息计算单元,配置用于根据用户历史的所述输入信息,通过机器学习,生成第一初始特征向量;
场景信息计算单元,配置用于根据用户当前的所述场景信息,通过机器学习,生成第二初始特征向量;
特征向量计算单元,配置用于将所述第一初始特征向量和所述第二初始特征向量进行加权,生成所述高维度特征向量;
其中,当前的所述场景信息包括用户的终端信息、位置信息和操作信息中的至少一种;历史的所述输入信息包括用户的特征信息、行为信息和意图信息中的至少一种。
10.根据权利要求7-9任一项权利要求所述的系统,其特征在于,服务器中存储有向量区间与词频的映射表;
所述词频计算单元包括:
计算向量区间单元,配置用于根据所述高维度特征向量,计算出各个所述候选词对应的向量区间;以及
查找词频单元,配置用于根据所述候选词对应的向量区间查找映射表,以确定所述候选词对应的词频。
11.根据权利要求7-9任一项权利要求所述的系统,其特征在于,所述服务器中存储有各个候选词的原始向量;
所述词频计算单元包括:
标量计算单元,配置用于对所述高维度特征向量和所述候选词的原始向量做乘积运算,以得到调整标量;以及
词频调整单元,配置用于根据调整标量对原始词频进行运算调整,以确定所述候选词的词频。
12.一种场景化文字输入的终端,其特征在于,所述终端包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
13.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN201810124920.2A 2018-02-07 2018-02-07 场景化文字输入的方法及系统、终端以及计算机可读存储介质 Active CN108319377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810124920.2A CN108319377B (zh) 2018-02-07 2018-02-07 场景化文字输入的方法及系统、终端以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810124920.2A CN108319377B (zh) 2018-02-07 2018-02-07 场景化文字输入的方法及系统、终端以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108319377A true CN108319377A (zh) 2018-07-24
CN108319377B CN108319377B (zh) 2019-05-31

Family

ID=62903079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810124920.2A Active CN108319377B (zh) 2018-02-07 2018-02-07 场景化文字输入的方法及系统、终端以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108319377B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597498A (zh) * 2018-11-29 2019-04-09 北京蓦然认知科技有限公司 一种基于场景的输入方法、装置、设备
CN111143424A (zh) * 2018-11-05 2020-05-12 百度在线网络技术(北京)有限公司 特征场景数据挖掘方法、装置和终端
CN111382242A (zh) * 2018-12-28 2020-07-07 北京搜狗科技发展有限公司 一种信息提供方法、装置及可读介质
CN111984132A (zh) * 2020-07-07 2020-11-24 北京语言大学 一种根据上下文环境进行信息输入的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149757A (zh) * 2007-11-09 2008-03-26 腾讯科技(深圳)有限公司 一种实现场景化文字输入的方法
CN102346560A (zh) * 2010-07-29 2012-02-08 腾讯科技(深圳)有限公司 一种输入法中调整候选词顺序的方法及装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN107102746A (zh) * 2016-02-19 2017-08-29 北京搜狗科技发展有限公司 候选词生成方法、装置以及用于候选词生成的装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149757A (zh) * 2007-11-09 2008-03-26 腾讯科技(深圳)有限公司 一种实现场景化文字输入的方法
CN102346560A (zh) * 2010-07-29 2012-02-08 腾讯科技(深圳)有限公司 一种输入法中调整候选词顺序的方法及装置
CN107102746A (zh) * 2016-02-19 2017-08-29 北京搜狗科技发展有限公司 候选词生成方法、装置以及用于候选词生成的装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143424A (zh) * 2018-11-05 2020-05-12 百度在线网络技术(北京)有限公司 特征场景数据挖掘方法、装置和终端
CN111143424B (zh) * 2018-11-05 2024-05-28 阿波罗智能技术(北京)有限公司 特征场景数据挖掘方法、装置和终端
CN109597498A (zh) * 2018-11-29 2019-04-09 北京蓦然认知科技有限公司 一种基于场景的输入方法、装置、设备
CN111382242A (zh) * 2018-12-28 2020-07-07 北京搜狗科技发展有限公司 一种信息提供方法、装置及可读介质
CN111984132A (zh) * 2020-07-07 2020-11-24 北京语言大学 一种根据上下文环境进行信息输入的方法及系统
CN111984132B (zh) * 2020-07-07 2021-07-27 北京语言大学 一种根据上下文环境进行信息输入的方法及系统

Also Published As

Publication number Publication date
CN108319377B (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN108319377B (zh) 场景化文字输入的方法及系统、终端以及计算机可读存储介质
CN108415978A (zh) 用户标签存储方法、用户画像计算方法及计算设备
CN108885624B (zh) 信息推荐系统及方法
CN111798273A (zh) 产品的购买概率预测模型的训练方法及购买概率预测方法
US9727906B1 (en) Generating item clusters based on aggregated search history data
CN107967110A (zh) 播放方法、播放装置、电子设备及计算机可读存储介质
CN107786943A (zh) 一种用户分群方法及计算设备
CN109145193A (zh) 一种信息推送方法及系统
CN106503224A (zh) 一种根据关键词推荐应用的方法及装置
KR102593155B1 (ko) 효율적인 의류 판매를 위한 복수의 인터페이스 제공 장치
CN107918778A (zh) 一种信息匹配方法及相关装置
CN107463619A (zh) 搜索方法、搜索设备以及终端设备
CN105094515A (zh) 商业问题网络化系统和工具
CN111612588A (zh) 商品呈现方法及装置、计算设备、计算机可读存储介质
Zhang et al. An improved deep forest model for prediction of e-commerce consumers’ repurchase behavior
KR102376652B1 (ko) Ai를 활용한 상품 데이터 실시간 분석 및 상품 정보를 업데이트하기 위한 방법 및 시스템
JP5265414B2 (ja) ネットショッピング管理装置
CN111728302A (zh) 服装设计方法和装置
CN111368195A (zh) 一种模型训练方法、装置、设备及存储介质
CN112766995A (zh) 物品推荐方法、装置、终端设备及存储介质
CN114429384B (zh) 基于电商平台的产品智能推荐方法及系统
CN115618126A (zh) 搜索处理方法、系统、计算机可读存储介质及计算机设备
CN111259213B (zh) 数据可视化的处理方法及装置
CN108595498A (zh) 问题反馈方法及装置
CN107688596A (zh) 突发话题检测方法及突发话题检测设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant