CN102426591A - 一种操作用于内容输入的语料库的方法和设备 - Google Patents

一种操作用于内容输入的语料库的方法和设备 Download PDF

Info

Publication number
CN102426591A
CN102426591A CN201110338640XA CN201110338640A CN102426591A CN 102426591 A CN102426591 A CN 102426591A CN 201110338640X A CN201110338640X A CN 201110338640XA CN 201110338640 A CN201110338640 A CN 201110338640A CN 102426591 A CN102426591 A CN 102426591A
Authority
CN
China
Prior art keywords
user
operation information
corpus
content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110338640XA
Other languages
English (en)
Inventor
戴帅湘
周晓
陈晓昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110338640XA priority Critical patent/CN102426591A/zh
Publication of CN102426591A publication Critical patent/CN102426591A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种操作用于内容输入的语料库的方法与设备。其中,根据一个或多个应用的用户操作信息,按照预定获取规则,获取与所述用户操作信息相对应的推荐内容,进而根据所述推荐内容来更新所述语料库,以将所述推荐内容作为用于内容输入的候选词条。与现有技术相比,本发明根据用户在各应用中的操作信息,按照预定获取规则,获取相应的推荐文字、图片、特殊字符等,并将其更新至该用户的语料库中以用于用户进行相关内容输入的候选词条。由此,当用户在执行该等操作行为之后再进行与该等操作行为相关联的输入时,可以快速从输入法候选词条中获取其所需的词条,提高用户的内容输入效率,进而提升用户体验。

Description

一种操作用于内容输入的语料库的方法和设备
技术领域
本发明涉及计算机领域,尤其涉及一种操作用于内容输入的语料库的技术。
背景技术
在现有技术中,一般根据用户在利用诸如微软拼音、搜狗拼音、紫光拼音等输入法进行输入的过程中的输入相关行为更新用户输入法词库,未曾考虑到根据用户在应用中的点击、浏览和编辑等操作行为实时地更新用户输入法词库,若此用户在执行该等操作行为之后再进行与该等操作行为相关联的输入时,需要进行多次查询选择才可获得其所需的输入内容。例如,用户在地图应用中通过点击查找到一个偏僻的地名,如“新场”,然后试图通过输入法在搜索页面中输入该词作为查询序列,以查找该地方的相关信息,但由于用户输入法词库中的候选词条并未包括该地名,因此用户不得不在输入法的候选词条中分别查询选定“新”和“场”两个字,以完成该词的输入,从而增加用户的输入负担,降低用户使用体验。
因此,如何实现有效地更新用于内容输入的语料库,成为目前亟待解决的问题之一。
发明内容
本发明的目的是提供一种操作用于内容输入的语料库的方法与设备。
根据本发明的一个方面,提供了一种计算机实现的操作用于内容输入的语料库的方法,该方法包括以下步骤:
a获取一个或多个应用的用户操作信息;
b根据所述用户操作信息,按照预定获取规则,获取与所述用户操作信息相对应的推荐内容;
c根据所述推荐内容来更新所述语料库,以将所述推荐内容作为用于内容输入的候选词条。
根据本发明的另一方面,还提供了一种操作用于内容输入的语料库的设备,该设备包括:
信息获取装置,用于获取一个或多个应用的用户操作信息;
第一内容获取装置,用于根据所述用户操作信息,按照预定获取规则,获取与所述用户操作信息相对应的推荐内容;
更新装置,用于根据所述推荐内容来更新所述语料库,以将所述推荐内容作为用于内容输入的候选词条。
与现有技术相比,本发明根据用户在各应用中的操作信息,按照预定获取规则,获取相应的推荐文字(单字、词、句子)、图片、特殊字符等,并将其更新至该用户的语料库中以用于用户进行相关内容输入的候选词条。由此,当用户在执行该等操作行为之后再进行与该等操作行为相关联的输入时,可以快速从输入法候选词条中获取其所需的词条,提高用户的内容输入效率,进而提升用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的操作用于内容输入的语料库设备示意图;
图2示出根据本发明一个优选实施例的操作用于内容输入的语料库的设备示意图;
图3示出根据本发明另一个方面的操作用于内容输入的语料库的方法流程图
图4示出根据本发明一个优选实施例的操作用于内容输入的语料库的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的操作用于内容输入的语料库的设备示意图。
在此,所述内容输入包括不限于:文字,如单字、词、句子等、特殊字符、图标、图像等内容的输入。
在此,所述语料库用于存储进行内容输入的候选词条;其可为以下任一类型的语料库:
1)在用户设备上的本地语料库;
2)在网络设备上的网络语料库;
3)单用户专用的私有语料库;
4)多用户共享的公共语料库,其可为同一用户组中多个用户共享的公共语料库,或可为非同一用户组中的多个用户共享的公共语料库。
本领域技术人员应能理解上述语料库仅为举例,其他现有的或今后可能出现的语料库如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
如图1所示,操作设备1包括信息获取装置11、第一内容获取装置12和更新装置13。在此,所述操作设备可为用户设备,也可为网络设备。
在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或手写设备等方式进行人机交互的电子产品,例如计算机、智能手机、PDA、或IPTV等。
在此,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
以下参照图1来对操作设备1的操作过程进行详细描述:
首先,信息获取装置11获取一个或多个应用的用户操作信息。
在此,所述应用包括但不限于本地应用、互联网应用;其中,所述本地应用包括但不限于阅读器、文本编辑器、游戏等;所述互联网应用包括但不限于网络百科、网络地图、网络搜索等。
在此,所述用户操作信息包括但不限于操作类型、操作内容;其中,所述操作类型包括但不限于点击操作、划选操作、浏览操作、编辑操作等;所述操作内容包括但不限于纯文本、链接文本、图标、图片等。
在此,所述获取的用户操作信息包括但不限于:
1)某一用户在该一个或多个应用上的用户操作信息;
2)某用户组中各用户在该一个或多个应用上的用户操作信息;
3)一个或多个应用的所有用户在该一个或多个应用上的用户操作信息。
其中,所述用户操作信息可为用户在一个或多个应用上的当前操作信息,也可为用户在一个或多个应用上的历史操作信息,或者二者结合。
在此,获取所述用户操作信息的方式包括但不限于以下情形:
1)当用户操作信息为用户的当前操作信息时,则信息获取装置11通过约定的通信方式,应事件触发实时地获取一个或多个应用的用户当前操作信息。
在一示例中,用户通过与用户设备的交互方式,包括但不限于鼠标、键盘、遥控器、触摸屏、或手写设备,在某一应用的用户交互界面中进行的点击、划选、编辑等操作。以鼠标为例,用户在用户设备的显示屏幕上利用鼠标点击浏览器中显示的网络百科的一个词条,该用户设备将该点击操作及其操作内容作为用户消息通过约定的通信方式发送至信息获取装置11,信息获取装置11通过实时地监听的方式接收并解析该用户消息,以获取该用户操作信息。
其中,当操作设备1为该用户设备时,所述约定的通信方式包括通过诸如总线等介质的用户设备的内部通信协议,所述内部通信协议包括但不限于存在于计算机中的各种形式通信,例如:面向对象编程中对象之间的通信协议;操作系统内不同程序或计算机不同模块之间的消息传送协议。当操作设备1为网络设备时,所述约定的通信方式包括但不限于基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
2)当用户操作信息为用户的历史操作信息时,则信息获取装置11可从本地或第三方设备的用户历史行为库中,应事件触发实时地、或按照预定周期地获取一个或多个应用的用户历史操作信息。
在此,所述用户历史行为库中包括但不限于用户标识信息或用户组标识信息及其所对应的用户历史操作信息;其中,该用户历史操作信息包括但不限于操作类型、操作内容等信息。在此,所述用户历史行为库包括但不限于关系数据库、Key-Value存储系统、文件系统等。
在一示例中,信息获取装置11通过调用设定的应用编程接口(API),按照预定周期向第三方设备发送获取一个用户组在诸如百度百科、维基百科、搜搜百科等浏览器网络百科应用中的历史操作信息的请求,其中,该请求中包含该用户组ID为“公益协会”;该第三方设备接收并解析该请求,提取该请求中的该用户组ID,并据此在用户历史行为库中进行匹配查询,以获得与该请求相对应的该“公益协会”用户组中全部用户成员在浏览器网络百科应用中的历史操作信息,接着将查询获得的该等历史操作信息返回至操作设备1,信息获取装置11通过实时监听的方式接收该等历史操作信息。
本领域技术人员应能理解上述获取用户操作信息的方式仅为举例,其他现有的或今后可能出现的获取用户操作信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,第一内容获取装置12根据信息获取装置11获取的用户操作信息,按照预定获取规则,获取与该(等)用户操作信息相对应的推荐内容。
在此,所述推荐内容中包括但不限于一个或多个推荐词条,以及各推荐词条的推荐权重;其中,所述推荐词条包括但不限于文字,如单字、词、句子、特殊字符、图标、图片等。
具体地,若用户操作信息为用户当前操作信息,则第一内容获取装置12提取该用户当前操作信息中的操作内容,并执行以下操作:
a)当该操作内容为图片时,第一内容获取装置12直接将该图片作为推荐词条;
b)当该操作内容为文本时,例如纯文本、链接文本等,则第一内容获取装置12将该文本进行分词处理以获得一个或多个分词结果,并将该一个或多个分词结果作为推荐词条。
在此,所述实施例中的进行分词处理的算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。
在一示例中,用户操作信息为用户当前在用户设备的阅读器中的划选操作,且该用户操作信息的操作内容为一段纯文本“暴风白兵对抗绝地武士”,;则第一内容获取装置12将该段纯文本利用正向最大匹配分词算法进行分词处理,以获得相应的分词结果为“暴风白兵”、“对抗”、“绝地武士”,接着将该三条分词结果作为三个推荐词条。
优选地,第一内容获取装置12根据通过对文本进行分词处理获得的多个分词结果,在本地或第三方设备的用户历史行为库中进行匹配查询,以获得该等分词在用户历史操作信息的操作内容中的累计历史出现次数,并将累计出现次数高于预定出现次数阈值的分词作为推荐词条;或第一内容获取装置12根据该等分词结果,在本地或第三方设备的用户历史行为库中进行匹配查询,以获得该等分词在最近预定时间段内的用户历史操作信息的操作内容中历史出现频次,并将历史出现频次高于预定出现频次阈值的分词作为推荐词条。
更优选地,第一内容获取装置12还可根据通过对文本进行分词处理获得的多个分词结果,利用自然语言理解技术对该文本进行语义分析,以确定各分词中的中心词,并将该(等)中心词作为推荐词条。
在一示例中,用户操作信息为用户当前在用户设备的浏览器中的的划选操作,且该用户操作信息的操作内容为一段文本;第一内容获取装置12将该文本进行分词处理,获得多个分词结果分别为“天宫一号”、“顺利”、“升空”、,接着第一内容获取装置12对该等分词结果进行语义分析,确定该等分词结果中“天宫一号”为中心词,进而将该两个中心词作为推荐词条。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,更新装置13根据第一内容获取装置12获得的推荐内容来更新语料库,以将该(等)推荐内容作为用于内容输入的候选词条。
具体地,更新装置13例如将第一内容获取装置12获得的推荐内容中的一个或多个推荐词条写入语料库中,以更新该语料库。若检测到该语料库未建立,则先行初始化该语料库,然后将该等推荐词条写入到该语料库中。
在此,所述更新语料库的方式包括但不限于:
1)将推荐内容中的所有推荐词条写入该语料库,写入的方式包括:
a)增量写入,即更新装置13将每条推荐词条在语料库中进行匹配查询,若查询确定该推荐词条在语料库中已存在,则无需再次写入;若查询确定该推荐词条在语料库中不存在,则将其写入。
b)覆盖写入;即更新装置13将全部推荐词条写入语料库中,其中在该语料库中已存在的推荐词条将被覆盖写入。
2)更新装置13可根据推荐内容中各推荐词条的推荐权重,仅将推荐权重超过预定权重阈值的推荐词条写入语料库,或将推荐权重排序靠前的预定数量的推荐词条写入语料库。
3)更新装置13还可根据已写入到语料库中的各推荐词条的推荐权重,更新语料库中相应候选词条的候选权重。在此,所述语料库中的每条候选词条都具有与其相对应的候选权重,以用于在提供候选词条时按照候选权重对该等候选词条按序提供。例如,第一内容获取装置12获得的针对某一用户的推荐词条“天宫一号”且该推荐词条的推荐权重为2,更新装置13将该推荐词条在该用户的语料库中进行匹配查询,确定该推荐词条在该语料库中已存在且与其相对应的候选权重为1,则基于预定的更新候选权重规则,将“天宫一号”在该语料库中的候选权重更新为1.2(=1+2*0.1)。
在此,需要说明的是,举例中的各项数值作为说明作用的示例,仅供理解本发明,不作为实际应用时的真实数据。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
在此,更新装置13可同时更新一个或多个语料库,例如可仅更新用户在用户设备上的本地语料库,也可同时更新该本地语料库和该用户在网络设备上的网络语料库;又例如,可更新用户组共享的公共语料库,也可同时更新用户组中各个用户专用的私有语料库。
在一示例中,更新装置13根据在第一内容获取装置12获得的针对某一用户的推荐词条“暴风白兵”、“对抗”和“绝地武士”,在该用户的用户设备的本地语料库中进行查询匹配,确定该语料库中不存在词条“暴风白兵”与“绝地武士”,但存在词条“对抗”,则更新装置13将该两条推荐词条写入该本地语料库。
在另一示例中,第一内容获取装置12获得针对某用户组的推荐词条“次渠”、“玉江佳园”、“潞西路”及各词条的推荐权重依次为2、1、与2;更新装置13根据该等推荐词条及其推荐权重,确定推荐词条“次渠”和“潞西路”的推荐权重超过预定权重阈值1.5,则将该两条推荐词条通过诸如http、https等约定的通信协议发送至网络设备,接着,该网络设备的通过实时监听的方式接收来自操作设备1的该两条推荐词条,并将其写入该网络设备中该用户组的公共语料库中。
本领域技术人员应能理解上述更新语料库的方式仅为举例,其他现有的或今后可能出现的更新语料库的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,操作设备1的信息获取装置11、第一内容获取装置12、更新装置13之间是持续不断地工作。具体地,信息获取装置11持续地获取一个或多个应用的用户操作信息;第一内容获取装置12也持续地根据所述用户操作信息,按照预定获取规则,获取与所述用户操作信息相对应的推荐内容;更新装置13也持续地根据所述推荐内容来更新所述语料库,以将所述推荐内容作为用于内容输入的候选词条。在此,本领域技术人员应理解“持续”是指各装置不断进行上述用于操作信息的获取、推荐内容的获取及语料库的更新,直至满足预定停止条件,例如信息获取装置11在较长时间内停止用户操作信息的获取。
优选地(参照图1),信息获取装置11获取一个用户对一个或多个应用的用户操作信息;更新装置13根据所述推荐内容来更新该用户的语料库,以将所述推荐内容作为该用户进行内容输入的候选词条。
具体地,信息获取装置11例如应事件触发实时地获取一个用户当前在一个应用上的用户操作信息,或周期地从本地或第三方设备的用户历史行为库中获取该一个用户在一个或多个应用上的用户历史操作信息;更新装置13将第一内容获取装置12获取的推荐内容更新至该用户在用户设备中或在网络设备中的该用户私有语料库,或将两者同时更新,以将该(些)推荐内容作为该用户进行内容输入的候选词条。
在一示例中,信息获取装置11通过调用用户设备提供的应用编程接口(API),按照预定周期在用户设备的本地用户历史行为库中获取该用户在多个应用上的用户历史操作信息;接着,第一内容获取装置12根据该等用户历史操作信息获取相应的多个推荐词条;随后,更新装置13将该些推荐词条写入该用户在该用户设备的用户私有语料库中,以将其作为该用户进行内容输入的候选词条。
本领域技术人员应能理解上述获取用户操作信息的方式和/或更新语料库的方式仅为举例,其他现有的或今后可能出现的获取用户操作信息的方式和/或更新语料库的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地(参照图1),信息获取装置11获取所述一个或多个应用的用户历史操作信息;第一内容获取装置12对该等用户历史操作信息根据预定统计规则进行处理,以获取与该等用户历史操作信息相对应的推荐内容。
具体地,首先,信息获取装置11可从本地或第三方设备的用户历史行为库中,应事件触发实时地、或周期地获取一个或多个应用的用户历史操作信息。
接着,第一内容获取装置12对信息获取装置11获取的用户历史操作信息根据预定统计规则进行处理,以获取与该等用户历史操作信息相对应的推荐内容。
在此,所述根据预定统计规则获取推荐内容的方式包括但不限于以下情形:
1)当用户历史操作信息为多个用户对应用的历史操作信息时,并且,该等用户的用户历史操作信息中的操作内容为文本,则第一内容获取装置12可通过对该等文本进行分词处理,以获得相应的分词结果,进而统计每个分词在分词结果重复出现的累计次数,以获取累计次数排名靠前的预定数量的分词作为推荐词条;或将获得的重复出现的累计次数超过预定次数阈值的分词作为推荐词条。
2)当用户历史操作信息为一个用户对应用的历史操作信息时,则第一内容获取装置12在该历史操作信息中提取该用户在预定时间段内在进行的具有相同操作类型的操作内容,并对该等操作内容进行统计分析,以获得相应的推荐词条作为推荐内容。
在一示例中,首先,信息获取装置11通过用户设备提供的应用编程接口(API),按照预定周期从本地的用户历史行为库中获取某一用户在用户设备的阅读器中阅读文章时的历史操作信息;第一内容获取装置12在该历史操作信息中提取该用户在最近1小时内操作类型为划选操作的操作内容,如在文章所划选的文本内容,然后对该等文本进行分词处理以获取相应的分词结果,进而统计每个分词在分词结果重复出现的累计次数,以获取累计次数排名靠前的预定数量的分词作为推荐词条。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地(参照图1),第一内容获取装置12根据信息获取装置11获取的用户操作信息,并结合用户相关信息,获取与该用户操作信息相对应的推荐内容。
在此,所述用户相关信息包括但不限于:
1)用户的个体属性标签;其中,所述用户的个体属性标签包括但不限于用户属性,如年龄、性别、职业等、用户偏好设置等。
在一示例中,当用户操作信息示出某一用户的在用户设备阅读器中进行划选操作,且操作内容为一段文本;第一内容获取装置12对该文本进行分词处理以获取分词处理结果为“电影”、“蓝精灵”、“挪威的森林”等,同时第一内容获取装置12通过用户设备提供的应用编程接口(API),在该用户设备的用户信息库中查询获取该用户的年龄为14岁,则第一内容获取装置12将符合该用户年龄的分词结果“蓝精灵”作为推荐词条;在此,所述用户信息存储库中包括但不限于用户属性,如年龄、性别、职业等,及用户偏好设置;所述用户信息库包括但不限于关系数据库、Key-Value存储系统、文件系统等。
2)用户的群组属性标签;其中,所述用户群组属性标签包括但不限于与一个用户具有相同或相似用户特征的其他用户的用户属性、用户偏好信息等。
在此,所述群组属性标签的获取方式包括但不限于:
1)根据用户的标识信息,查询前述用户信息库,获得该用户的群组属性标签;
2)根据用户的标识信息,查询前述用户信息库,获得该用户的个体属性标签以及个体属性标签与该用户相同或部分相同的其他用户,并将该等与其他用户相同的个体属性标签作为该用户的群组属性标签;
在一示例中,当用户操作信息示出某一用户的在用户设备阅读器中进行划选操作,且操作内容为一段文本;第一内容获取装置12对该文本进行分词处理以获取分词处理结果为“登山”、“徒步”、“日出”等,同时第一内容获取装置12通过约定的通信方式向网络设备发送获取该用户的群组属性标签的请求,该网络设备接收并解析该请求,接着在网络设备的用户信息库中进行匹配查询,以获得该用户的群组属性标签为“体育”并将其返回至操作设备1,则第一内容获取装置12接收该群组属性标签,并据此将分词“登山”和“徒步”作为推荐词条。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地(参照图1),第一内容获取装置12根据信息获取装置11获取的用户操作信息,并结合该用户操作信息所属的应用,以获取与该用户操作信息相对应的推荐内容。
在一示例中,若用户操作信息所属的应用为电子地图,则第一内容获取装置12将提取用户操作信息中操作内容所包括的地理名称信息,并将该等地理名称作为推荐词条,以获得推荐内容。
在另一示例中,若用户操作信息所属的应用为网络百科,则第一内容获取装置12将提取用户操作信息中操作内容所包括的多个百科条目,并将该等百科条目作为推荐词条,以获得推荐内容。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2示出根据本发明一个优选实施例的操作用于内容输入的语料库的设备示意图。其中,第一内容获取装置12’包括关联信息获取单元121’和第二内容获取单元122’。
在此,图2中所示装置11’和装置13’的功能与前面参照图1所描述的装置11和装置13的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
以下参照图2来对该优选实施例进行详细描述:
具体地,关联信息获取单元121’根据信息获取装置11’获取的用户操作信息,并结合该用户操作信息所属的应用,获取与该用户操作信息相关的关联信息;例如,当应用为电子地图时,与用户操作信息相关的关联信息包括但不限于用户所查找的地理位置的周边地理信息;当应用为网络百科时,与用户操作信息相关的关联信息包括但不限于与用户当前点击查看的百科词条关联的其他百科词条。
接着,第二内容获取单元122’根据关联信息获取单元121’获取的关联信息,按照预定获取规则,获取与该(等)关联信息相对应的推荐内容。
在一示例中,用户操作信息为在电子地图应用中输入查找“天安门”的地理位置,则关联信息获取单元121’根据“天安门”的地理位置,在电子地图中查询获得该地理位置周边的相关地理信息,如“毛主席纪念堂”、“人民英雄纪念碑”、“故宫”、“景山公园”等;接着,第二内容获取单元122’将距离“天安门”的地理坐标位置1公里以内的地理信息“毛主席纪念堂”、“人民英雄纪念碑”、“故宫”作为推荐词条。
本领域技术人员应能理解上述获取关联信息的方式和/或获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取关联信息的方式和/或获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图3示出根据本发明一个方面的操作用于内容输入的语料库的方法流程图。
在此,所述内容输入包括不限于:文字,如单字、词、句子等、特殊字符、图标、图像等内容的输入。
在此,所述语料库用于存储进行内容输入的候选词条;其可为以下任一类型的语料库:
1)在用户设备上的本地语料库;
2)在网络设备上的网络语料库;
3)单用户专用的私有语料库;
4)多用户共享的公共语料库,其可为同一用户组中多个用户共享的公共语料库,或可为非同一用户组中的多个用户共享的公共语料库。
本领域技术人员应能理解上述语料库仅为举例,其他现有的或今后可能出现的语料库如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在此,所述操作设备可为用户设备,也可为网络设备。
在此,所述用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或手写设备等方式进行人机交互的电子产品,例如计算机、智能手机、PDA、或IPTV等。
在此,所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
以下参照图3来对操作设备1的操作过程进行详细描述:
首先,在步骤S1中,操作设备1获取一个或多个应用的用户操作信息。
在此,所述应用包括但不限于本地应用、互联网应用;其中,所述本地应用包括但不限于阅读器、文本编辑器、游戏等;所述互联网应用包括但不限于网络百科、网络地图、网络搜索等。
在此,所述用户操作信息包括但不限于操作类型、操作内容;其中,所述操作类型包括但不限于点击操作、划选操作、浏览操作、编辑操作等;所述操作内容包括但不限于纯文本、链接文本、图标、图片等。
在此,所述获取的用户操作信息包括但不限于:
1)某一用户在该一个或多个应用上的用户操作信息;
2)某用户组中各用户在该一个或多个应用上的用户操作信息;
3)一个或多个应用的所有用户在该一个或多个应用上的用户操作信息。
其中,所述用户操作信息可为用户在一个或多个应用上的当前操作信息,也可为用户在一个或多个应用上的历史操作信息,或者二者结合。
在此,获取所述用户操作信息的方式包括但不限于以下情形:
1)当用户操作信息为用户的当前操作信息时,则在步骤S1中,操作设备1通过约定的通信方式,应事件触发实时地获取一个或多个应用的用户当前操作信息。
在一示例中,用户通过与用户设备的交互方式,包括但不限于鼠标、键盘、遥控器、触摸屏、或手写设备,在某一应用的用户交互界面中进行的点击、划选、编辑等操作。以鼠标为例,用户在用户设备的显示屏幕上利用鼠标点击浏览器中显示的网络百科的一个词条,该用户设备将该点击操作及其操作内容作为用户消息通过约定的通信方式发送至操作设备1,在步骤S1中,操作设备1通过实时地监听的方式接收并解析该用户消息,以获取该用户操作信息。
其中,当操作设备1为该用户设备时,所述约定的通信方式包括通过诸如总线等介质的用户设备的内部通信协议,所述内部通信协议包括但不限于存在于计算机中的各种形式通信,例如:面向对象编程中对象之间的通信协议;操作系统内不同程序或计算机不同模块之间的消息传送协议。当操作设备1为网络设备时,所述约定的通信方式包括但不限于基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
2)当用户操作信息为用户的历史操作信息时,则在步骤S1中,操作设备1可从本地或第三方设备的用户历史行为库中,应事件触发实时地、或按照预定周期地获取一个或多个应用的用户历史操作信息。
在此,所述用户历史行为库中包括但不限于用户标识信息或用户组标识信息及其所对应的用户历史操作信息;其中,该用户历史操作信息包括但不限于操作类型、操作内容等信息。在此,所述用户历史行为库包括但不限于关系数据库、Key-Value存储系统、文件系统等。
在一示例中,在步骤S1中,操作设备1通过调用设定的应用编程接口(API),按照预定周期向第三方设备发送获取一个用户组在诸如百度百科、维基百科、搜搜百科等浏览器网络百科应用中的历史操作信息的请求,其中,该请求中包含该用户组ID为“公益协会”;该第三方设备接收并解析该请求,提取该请求中的该用户组ID,并据此在用户历史行为库中进行匹配查询,以获得与该请求相对应的该“公益协会”用户组中全部用户成员在浏览器网络百科应用中的历史操作信息,接着将查询获得的该等历史操作信息返回至操作设备1,在步骤S1中,操作设备1通过实时监听的方式接收该等历史操作信息。
本领域技术人员应能理解上述获取用户操作信息的方式仅为举例,其他现有的或今后可能出现的获取用户操作信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S2中,操作设备1根据其在步骤S1中获取的用户操作信息,按照预定获取规则,获取与该(等)用户操作信息相对应的推荐内容。
在此,所述推荐内容中包括但不限于一个或多个推荐词条,以及各推荐词条的推荐权重;其中,所述推荐词条包括但不限于文字,如单字、词、句子、特殊字符、图标、图片等。
具体地,若用户操作信息为用户当前操作信息,则在步骤S2中,操作设备1提取该用户当前操作信息中的操作内容,并执行以下操作:
a)当该操作内容为图片时,操作设备1在步骤S2中直接将该图片作为推荐词条;
b)当该操作内容为文本时,例如纯文本、链接文本等,则操作设备1在步骤S2中将该文本进行分词处理以获得一个或多个分词结果,并将该一个或多个分词结果作为推荐词条。
在此,所述实施例中的进行分词处理的算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。
在一示例中,用户操作信息为用户当前在用户设备的阅读器中的划选操作,且该用户操作信息的操作内容为一段纯文本“暴风白兵对抗绝地武士”,;则在步骤S2中,操作设备1将该段纯文本利用正向最大匹配分词算法进行分词处理,以获得相应的分词结果为“暴风白兵”、“对抗”、“绝地武士”,接着将该三条分词结果作为三个推荐词条。
优选地,在步骤S2中,操作设备1根据通过对文本进行分词处理获得的多个分词结果,在本地或第三方设备的用户历史行为库中进行匹配查询,以获得该等分词在用户历史操作信息的操作内容中的累计历史出现次数,并将累计出现次数高于预定出现次数阈值的分词作为推荐词条;或在步骤S2中,操作设备1根据该等分词结果,在本地或第三方设备的用户历史行为库中进行匹配查询,以获得该等分词在最近预定时间段内的用户历史操作信息的操作内容中历史出现频次,并将历史出现频次高于预定出现频次阈值的分词作为推荐词条。
更优选地,在步骤S2中,操作设备1还可根据通过对文本进行分词处理获得的多个分词结果,利用自然语言理解技术对该文本进行语义分析,以确定各分词中的中心词,并将该(等)中心词作为推荐词条。
在一示例中,用户操作信息为用户当前在用户设备的浏览器中的的划选操作,且该用户操作信息的操作内容为一段文本;在步骤S2中,操作设备1将该文本进行分词处理,获得多个分词结果分别为“天宫一号”、“顺利”、“升空”、,接着操作设备1对该等分词结果进行语义分析,确定该等分词结果中“天宫一号”为中心词,进而将该两个中心词作为推荐词条。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S3中,操作设备1根据其在步骤S2中获得的推荐内容来更新语料库,以将该(等)推荐内容作为用于内容输入的候选词条。
具体地,在步骤S3中,操作设备1例如将其在步骤S2中获得的推荐内容中的一个或多个推荐词条写入语料库中,以更新该语料库。若检测到该语料库未建立,则先行初始化该语料库,然后将该等推荐词条写入到该语料库中。
在此,所述更新语料库的方式包括但不限于:
1)将推荐内容中的所有推荐词条写入该语料库,写入的方式包括:
a)增量写入,即在步骤S3中,操作设备1将每条推荐词条在语料库中进行匹配查询,若查询确定该推荐词条在语料库中已存在,则无需再次写入;若查询确定该推荐词条在语料库中不存在,则将其写入。
b)覆盖写入;即在步骤S3中,操作设备1将全部推荐词条写入语料库中,其中在该语料库中已存在的推荐词条将被覆盖写入。
2)在步骤S3中,操作设备1可根据推荐内容中各推荐词条的推荐权重,仅将推荐权重超过预定权重阈值的推荐词条写入语料库,或将推荐权重排序靠前的预定数量的推荐词条写入语料库。
3)在步骤S3中,操作设备1还可根据已写入到语料库中的各推荐词条的推荐权重,更新语料库中相应候选词条的候选权重。在此,所述语料库中的每条候选词条都具有与其相对应的候选权重,以用于在提供候选词条时按照候选权重对该等候选词条按序提供。例如,在步骤S2中,操作设备1获得的针对某一用户的推荐词条“天宫一号”且该推荐词条的推荐权重为2,在步骤S3中,操作设备1将该推荐词条在该用户的语料库中进行匹配查询,确定该推荐词条在该语料库中已存在且与其相对应的候选权重为1,则基于预定的更新候选权重规则,将“天宫一号”在该语料库中的候选权重更新为1.2(=1+2*0.1)。
在此,需要说明的是,举例中的各项数值作为说明作用的示例,仅供理解本发明,不作为实际应用时的真实数据。如无特别说明,本文中其他地方出现的数值的功用与此处相同,为简明起见,不再赘述。
在此,在步骤S3中,操作设备1可同时更新一个或多个语料库,例如可仅更新用户在用户设备上的本地语料库,也可同时更新该本地语料库和该用户在网络设备上的网络语料库;又例如,可更新用户组共享的公共语料库,也可同时更新用户组中各个用户专用的私有语料库。
在一示例中,在步骤S3中,操作设备1根据其在步骤S2中获得的针对某一用户的推荐词条“暴风白兵”、“对抗”和“绝地武士”,在该用户的用户设备的本地语料库中进行查询匹配,确定该语料库中不存在词条“暴风白兵”与“绝地武士”,但存在词条“对抗”,则在步骤S3中,操作设备1将该两条推荐词条写入该本地语料库。
在另一示例中,在步骤S2中,操作设备1获得针对某用户组的推荐词条“次渠”、“玉江佳园”、“潞西路”及各词条的推荐权重依次为2、1、与2;在步骤S3中,操作设备1根据该等推荐词条及其推荐权重,确定推荐词条“次渠”和“潞西路”的推荐权重超过预定权重阈值1.5,则将该两条推荐词条通过诸如http、https等约定的通信协议发送至网络设备,接着,该网络设备的通过实时监听的方式接收来自操作设备1的该两条推荐词条,并将其写入该网络设备中该用户组的公共语料库中。
本领域技术人员应能理解上述更新语料库的方式仅为举例,其他现有的或今后可能出现的更新语料库的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,操作设备1在步骤S1、步骤S2和步骤S3中是持续不断地工作。具体地,在步骤S1中,操作设备1持续地获取一个或多个应用的用户操作信息;在步骤S2中,操作设备1也持续地根据所述用户操作信息,按照预定获取规则,获取与所述用户操作信息相对应的推荐内容;在步骤S3中,操作设备1也持续地根据所述推荐内容来更新所述语料库,以将所述推荐内容作为用于内容输入的候选词条。在此,本领域技术人员应理解“持续”是指操作设备1在各步骤中不断进行上述用于操作信息的获取、推荐内容的获取及语料库的更新,直至满足预定停止条件,例如操作设备1在较长时间内停止用户操作信息的获取。
优选地(参照图3),在步骤S1中,操作设备1获取一个用户对一个或多个应用的用户操作信息;在步骤S3中,操作设备1根据所述推荐内容来更新该用户的语料库,以将所述推荐内容作为该用户进行内容输入的候选词条。
具体地,在步骤S1中,操作设备1例如应事件触发实时地获取一个用户当前在一个应用上的用户操作信息,或周期地从本地或第三方设备的用户历史行为库中获取该一个用户在一个或多个应用上的用户历史操作信息;在步骤S3中,操作设备1将其在步骤S2中获取的推荐内容更新至该用户在用户设备中或在网络设备中的该用户私有语料库,或将两者同时更新,以将该(些)推荐内容作为该用户进行内容输入的候选词条。
在一示例中,在步骤S1中,操作设备1通过调用用户设备提供的应用编程接口(API),按照预定周期在用户设备的本地用户历史行为库中获取该用户在多个应用上的用户历史操作信息;接着,在步骤S2中,操作设备1根据该等用户历史操作信息获取相应的多个推荐词条;随后,在步骤S3中,操作设备1将该些推荐词条写入该用户在该用户设备的用户私有语料库中,以将其作为该用户进行内容输入的候选词条。
本领域技术人员应能理解上述获取用户操作信息的方式和/或更新语料库的方式仅为举例,其他现有的或今后可能出现的获取用户操作信息的方式和/或更新语料库的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地(参照图3),在步骤S1中,操作设备1获取所述一个或多个应用的用户历史操作信息;在步骤S2中,操作设备1对该等用户历史操作信息根据预定统计规则进行处理,以获取与该等用户历史操作信息相对应的推荐内容。
具体地,首先,在步骤S1中,操作设备1可从本地或第三方设备的用户历史行为库中,应事件触发实时地、或周期地获取一个或多个应用的用户历史操作信息。
接着,在步骤S2中,操作设备1对其在步骤S1中获取的用户历史操作信息根据预定统计规则进行处理,以获取与该等用户历史操作信息相对应的推荐内容。
在此,所述根据预定统计规则获取推荐内容的方式包括但不限于以下情形:
1)当用户历史操作信息为多个用户对应用的历史操作信息时,并且,该等用户的用户历史操作信息中的操作内容为文本,则在步骤S2中,操作设备1可通过对该等文本进行分词处理,以获得相应的分词结果,进而统计每个分词在分词结果重复出现的累计次数,以获取累计次数排名靠前的预定数量的分词作为推荐词条;或将获得的重复出现的累计次数超过预定次数阈值的分词作为推荐词条。
2)当用户历史操作信息为一个用户对应用的历史操作信息时,则在步骤S2中,操作设备1在该历史操作信息中提取该用户在预定时间段内在进行的具有相同操作类型的操作内容,并对该等操作内容进行统计分析,以获得相应的推荐词条作为推荐内容。
在一示例中,首先,在步骤S1中,操作设备1通过用户设备提供的应用编程接口(API),按照预定周期从本地的用户历史行为库中获取某一用户在用户设备的阅读器中阅读文章时的历史操作信息;在步骤S2中,操作设备1在该历史操作信息中提取该用户在最近1小时内操作类型为划选操作的操作内容,如在文章所划选的文本内容,然后对该等文本进行分词处理以获取相应的分词结果,进而统计每个分词在分词结果重复出现的累计次数,以获取累计次数排名靠前的预定数量的分词作为推荐词条。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地(参照图3),在步骤S2中,操作设备1根据其在步骤S1中获取的用户操作信息,并结合用户相关信息,获取与该用户操作信息相对应的推荐内容。
在此,所述用户相关信息包括但不限于:
1)用户的个体属性标签;其中,所述用户的个体属性标签包括但不限于用户属性,如年龄、性别、职业等、用户偏好设置等。
在一示例中,当用户操作信息示出某一用户的在用户设备阅读器中进行划选操作,且操作内容为一段文本;在步骤S2中,操作设备1对该文本进行分词处理以获取分词处理结果为“电影”、“蓝精灵”、“挪威的森林”等,同时在步骤S2中,操作设备1通过用户设备提供的应用编程接口(API),在该用户设备的用户信息库中查询获取该用户的年龄为14岁,则操作设备1将符合该用户年龄的分词结果“蓝精灵”作为推荐词条;在此,所述用户信息存储库中包括但不限于用户属性,如年龄、性别、职业等,及用户偏好设置;所述用户信息库包括但不限于关系数据库、Key-Value存储系统、文件系统等。
2)用户的群组属性标签;其中,所述用户群组属性标签包括但不限于与一个用户具有相同或相似用户特征的其他用户的用户属性、用户偏好信息等。
在此,所述群组属性标签的获取方式包括但不限于:
1)根据用户的标识信息,查询前述用户信息库,获得该用户的群组属性标签;
2)根据用户的标识信息,查询前述用户信息库,获得该用户的个体属性标签以及个体属性标签与该用户相同或部分相同的其他用户,并将该等与其他用户相同的个体属性标签作为该用户的群组属性标签;
在一示例中,当用户操作信息示出某一用户的在用户设备阅读器中进行划选操作,且操作内容为一段文本;在步骤S2中,操作设备1对该文本进行分词处理以获取分词处理结果为“登山”、“徒步”、“日出”等,同时操作设备1通过约定的通信方式向网络设备发送获取该用户的群组属性标签的请求,该网络设备接收并解析该请求,接着在网络设备的用户信息库中进行匹配查询,以获得该用户的群组属性标签为“体育”并将其返回至操作设备1,则操作设备1接收该群组属性标签,并据此将分词“登山”和“徒步”作为推荐词条。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
更优选地(参照图3),在步骤S2中,操作设备1根据其在步骤S1中获取的用户操作信息,并结合该用户操作信息所属的应用,以获取与该用户操作信息相对应的推荐内容。
在一示例中,若用户操作信息所属的应用为电子地图,则在步骤S2中,操作设备1将提取用户操作信息中操作内容所包括的地理名称信息,并将该等地理名称作为推荐词条,以获得推荐内容。
在另一示例中,若用户操作信息所属的应用为网络百科,则在步骤S2中,操作设备1将提取用户操作信息中操作内容所包括的多个百科条目,并将该等百科条目作为推荐词条,以获得推荐内容。
本领域技术人员应能理解上述获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图4示出根据本发明一个优选实施例的操作用于内容输入的语料库的方法流程图。
在此,图4中所示操作设备1在步骤S1’和步骤S3’中的功能与前面参照图3所描述的操作设备1在步骤S1和步骤S3中的内容相同,为简明起见,将其以引用方式包含于此,而不做赘述。
以下参照图4来对该优选实施例进行详细描述:
具体地,在步骤S21’中,操作设备1根据其在步骤S1’中获取的用户操作信息,并结合该用户操作信息所属的应用,获取与该用户操作信息相关的关联信息;例如,当应用为电子地图时,与用户操作信息相关的关联信息包括但不限于用户所查找的地理位置的周边地理信息;当应用为网络百科时,与用户操作信息相关的关联信息包括但不限于与用户当前点击查看的百科词条关联的其他百科词条。
接着,在步骤S22’中,操作设备1根据其在步骤S21’中获取的关联信息,按照预定获取规则,获取与该(等)关联信息相对应的推荐内容。
在一示例中,用户操作信息为在电子地图应用中输入查找“天安门”的地理位置,则在步骤S21’中,操作设备1根据“天安门”的地理位置,在电子地图中查询获得该地理位置周边的相关地理信息,如“毛主席纪念堂”、“人民英雄纪念碑”、“故宫”、“景山公园”等;接着,在步骤S22’中,操作设备1将距离“天安门”的地理坐标位置1公里以内的地理信息“毛主席纪念堂”、“人民英雄纪念碑”、“故宫”作为推荐词条。
本领域技术人员应能理解上述获取关联信息的方式和/或获取推荐内容的方式仅为举例,其他现有的或今后可能出现的获取关联信息的方式和/或获取推荐内容的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (16)

1.一种计算机实现的操作用于内容输入的语料库的方法,其中,该方法包括以下步骤:
a获取一个或多个应用的用户操作信息;
b根据所述用户操作信息,按照预定获取规则,获取与所述用户操作信息相对应的推荐内容;
c根据所述推荐内容来更新所述语料库,以将所述推荐内容作为用于内容输入的候选词条。
2.根据权利要求1所述的方法,其中,所述语料库包括但不限于以下至少任一项:
-在用户设备上的本地语料库;
-在网络设备上的网络语料库;
-单用户专用的私有语料库;
-多用户共享的公共语料库。
3.根据权利要求1或2所述的方法,其中,所述步骤a包括:
-获取一个用户对所述一个或多个应用的用户操作信息;
其中,所述步骤c包括:
-根据所述推荐内容来更新该用户的语料库,以将所述推荐内容作为该用户进行内容输入的候选词条。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤a包括:
-获取所述一个或多个应用的用户历史操作信息。
其中,所述步骤b包括:
-对所述用户历史操作信息根据预定统计规则进行处理,以获取与所述用户历史操作信息相对应的推荐内容。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤b包括:
-根据所述用户操作信息,并结合所述用户操作信息所属的应用,以获取与所述用户操作信息相对应的推荐内容。
6.根据权利要求5所述的方法,其中步骤b包括:
-根据所述用户操作信息,并结合所述用户操作信息所属的应用,获取与所述用户操作信息相关的关联信息;
-根据所述关联信息,按照预定获取规则,获取与所述关联信息相对应的推荐内容。
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤b包括:
-根据所述用户操作信息,并结合用户相关信息,获取与所述用户操作信息相对应的推荐内容。
8.根据权利要求7所述的方法,其中,所述用户相关信息包括以下至少任一项:
-所述用户的个体属性标签;
-所述用户的群组属性标签。
9.一种操作用于内容输入的语料库的设备,其中,该设备包括:
信息获取装置,用于获取一个或多个应用的用户操作信息;
第一内容获取装置,用于根据所述用户操作信息,按照预定获取规则,获取与所述用户操作信息相对应的推荐内容;
更新装置,用于根据所述推荐内容来更新所述语料库,以将所述推荐内容作为用于内容输入的候选词条。
10.根据权利要求9所述的设备,其中,所述语料库包括但不限于以下至少任一项:
-在用户设备上的本地语料库;
-在网络设备上的网络语料库;
-单用户专用的私有语料库;
-多用户共享的公共语料库。
11.根据权利要求9或10所述的设备,其中,所述信息获取装置用于获取一个用户对所述一个或多个应用的用户操作信息;
其中,所述更新装置用于根据所述推荐内容来更新该用户的语料库,以将所述推荐内容作为该用户进行内容输入的候选词条。
12.根据权利要求9至11中任一项所述的设备,其中,所述信息获取装置用于获取所述一个或多个应用的用户历史操作信息。
其中,所述第一内容获取装置用于对所述用户历史操作信息根据预定统计规则进行处理,以获取与所述用户历史操作信息相对应的推荐内容。
13.根据权利要求9至12中任一项所述的设备,其中,所述第一内容获取装置用于根据所述用户操作信息,并结合所述用户操作信息所属的应用,以获取与所述用户操作信息相对应的推荐内容。
14.根据权利要求13所述的设备,其中,第一内容获取装置包括:
关联信息获取单元,用于根据所述用户操作信息,并结合所述用户操作信息所属的应用,获取与所述用户操作信息相关的关联信息;
第二内容获取单元,用于根据所述关联信息,按照预定获取规则,获取与所述关联信息相对应的推荐内容。
15.根据权利要求9至14中任一项所述的设备,其中,所述第一内容获取装置用于根据所述用户操作信息,并结合用户相关信息,获取与所述用户操作信息相对应的推荐内容。
16.根据权利要求15所述的设备,其中,所述用户相关信息包括以下至少任一项:
-所述用户的个体属性标签;
-所述用户的群组属性标签。
CN201110338640XA 2011-10-31 2011-10-31 一种操作用于内容输入的语料库的方法和设备 Pending CN102426591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110338640XA CN102426591A (zh) 2011-10-31 2011-10-31 一种操作用于内容输入的语料库的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110338640XA CN102426591A (zh) 2011-10-31 2011-10-31 一种操作用于内容输入的语料库的方法和设备

Publications (1)

Publication Number Publication Date
CN102426591A true CN102426591A (zh) 2012-04-25

Family

ID=45960571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110338640XA Pending CN102426591A (zh) 2011-10-31 2011-10-31 一种操作用于内容输入的语料库的方法和设备

Country Status (1)

Country Link
CN (1) CN102426591A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064826A (zh) * 2012-12-31 2013-04-24 百度在线网络技术(北京)有限公司 一种用于表情输入的方法、装置与系统
CN103268312A (zh) * 2013-05-03 2013-08-28 同济大学 一种基于用户反馈的训练语料收集系统及其方法
WO2014032266A1 (en) * 2012-08-31 2014-03-06 Microsoft Corporation Personal language model for input method editor
CN103870000A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN103869999A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 对输入法所产生的候选项进行排序的方法及装置
CN104008315A (zh) * 2014-05-30 2014-08-27 可牛网络技术(北京)有限公司 软件功能的管理方法、装置和电子设备
CN104102739A (zh) * 2014-07-28 2014-10-15 百度在线网络技术(北京)有限公司 一种扩充实体库的方法及装置
CN104111941A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN104423623A (zh) * 2013-09-02 2015-03-18 联想(北京)有限公司 一种选词处理方法及电子设备
CN104462102A (zh) * 2013-09-16 2015-03-25 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104572626A (zh) * 2015-01-23 2015-04-29 北京云知声信息技术有限公司 语义模板自动生成方法、装置和语义分析方法、系统
CN105095467A (zh) * 2015-08-04 2015-11-25 联想(北京)有限公司 一种信息处理方法及电子设备
CN105549756A (zh) * 2015-10-30 2016-05-04 东莞酷派软件技术有限公司 一种基于位置信息的输入方法及用户终端
CN106372106A (zh) * 2016-08-19 2017-02-01 无锡天脉聚源传媒科技有限公司 一种提供视频内容辅助信息的方法及装置
CN106445189A (zh) * 2016-12-16 2017-02-22 北京小米移动软件有限公司 候选词显示方法及装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
WO2017124747A1 (zh) * 2016-01-19 2017-07-27 乐视控股(北京)有限公司 一种移动终端应用偏好参数管理方法及系统
CN107315487A (zh) * 2016-04-27 2017-11-03 北京搜狗科技发展有限公司 一种输入处理方法、装置及电子设备
CN109240511A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 一种更新词库的方法、系统和一种用于更新词库的装置
CN110020177A (zh) * 2017-12-29 2019-07-16 中移(杭州)信息技术有限公司 一种对象推荐方法及设备
CN110083253A (zh) * 2018-01-25 2019-08-02 北京搜狗科技发展有限公司 一种输入方法和装置
CN110930998A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
CN110955821A (zh) * 2018-09-25 2020-04-03 北京搜狗科技发展有限公司 一种推荐方法、装置及可读介质
CN113325959A (zh) * 2021-05-26 2021-08-31 北京沃东天骏信息技术有限公司 一种输入语料的推荐方法和装置
CN114141387A (zh) * 2021-11-25 2022-03-04 泰康保险集团股份有限公司 互联网医疗会话中交互信息推荐方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162366A (ja) * 2001-11-28 2003-06-06 Canon Inc 複合情報機器の文字入力装置
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN102053974A (zh) * 2009-11-03 2011-05-11 新浪网技术(中国)有限公司 一种汉字输入方法和装置
CN102063194A (zh) * 2010-04-16 2011-05-18 百度在线网络技术(北京)有限公司 用于供用户进行文字输入的方法、设备、服务器和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003162366A (ja) * 2001-11-28 2003-06-06 Canon Inc 複合情報機器の文字入力装置
CN101329674A (zh) * 2007-06-18 2008-12-24 北京搜狗科技发展有限公司 一种提供个性化搜索的系统和方法
CN102053974A (zh) * 2009-11-03 2011-05-11 新浪网技术(中国)有限公司 一种汉字输入方法和装置
CN102063194A (zh) * 2010-04-16 2011-05-18 百度在线网络技术(北京)有限公司 用于供用户进行文字输入的方法、设备、服务器和系统

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014032266A1 (en) * 2012-08-31 2014-03-06 Microsoft Corporation Personal language model for input method editor
CN103869999B (zh) * 2012-12-11 2018-10-16 百度国际科技(深圳)有限公司 对输入法所产生的候选项进行排序的方法及装置
CN103870000A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN103869999A (zh) * 2012-12-11 2014-06-18 百度国际科技(深圳)有限公司 对输入法所产生的候选项进行排序的方法及装置
CN103870000B (zh) * 2012-12-11 2018-12-14 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
CN103064826A (zh) * 2012-12-31 2013-04-24 百度在线网络技术(北京)有限公司 一种用于表情输入的方法、装置与系统
CN104111941A (zh) * 2013-04-18 2014-10-22 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN104111941B (zh) * 2013-04-18 2018-11-16 阿里巴巴集团控股有限公司 信息展示的方法及设备
CN103268312A (zh) * 2013-05-03 2013-08-28 同济大学 一种基于用户反馈的训练语料收集系统及其方法
CN103268312B (zh) * 2013-05-03 2016-04-06 同济大学 一种基于用户反馈的训练语料收集系统及其方法
CN104423623A (zh) * 2013-09-02 2015-03-18 联想(北京)有限公司 一种选词处理方法及电子设备
CN104423623B (zh) * 2013-09-02 2018-10-12 联想(北京)有限公司 一种选词处理方法及电子设备
CN104462102B (zh) * 2013-09-16 2018-11-09 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104462102A (zh) * 2013-09-16 2015-03-25 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104008315A (zh) * 2014-05-30 2014-08-27 可牛网络技术(北京)有限公司 软件功能的管理方法、装置和电子设备
CN104102739B (zh) * 2014-07-28 2018-03-06 百度在线网络技术(北京)有限公司 一种扩充实体库的方法及装置
CN104102739A (zh) * 2014-07-28 2014-10-15 百度在线网络技术(北京)有限公司 一种扩充实体库的方法及装置
CN104572626A (zh) * 2015-01-23 2015-04-29 北京云知声信息技术有限公司 语义模板自动生成方法、装置和语义分析方法、系统
CN105095467B (zh) * 2015-08-04 2020-07-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN105095467A (zh) * 2015-08-04 2015-11-25 联想(北京)有限公司 一种信息处理方法及电子设备
CN105549756A (zh) * 2015-10-30 2016-05-04 东莞酷派软件技术有限公司 一种基于位置信息的输入方法及用户终端
WO2017124747A1 (zh) * 2016-01-19 2017-07-27 乐视控股(北京)有限公司 一种移动终端应用偏好参数管理方法及系统
CN107315487A (zh) * 2016-04-27 2017-11-03 北京搜狗科技发展有限公司 一种输入处理方法、装置及电子设备
CN107315487B (zh) * 2016-04-27 2022-04-12 北京搜狗科技发展有限公司 一种输入处理方法、装置及电子设备
CN106896932B (zh) * 2016-06-07 2019-10-15 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN106896932A (zh) * 2016-06-07 2017-06-27 阿里巴巴集团控股有限公司 一种候选词推荐方法及装置
CN106372106A (zh) * 2016-08-19 2017-02-01 无锡天脉聚源传媒科技有限公司 一种提供视频内容辅助信息的方法及装置
CN106445189A (zh) * 2016-12-16 2017-02-22 北京小米移动软件有限公司 候选词显示方法及装置
CN109240511A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 一种更新词库的方法、系统和一种用于更新词库的装置
CN110020177A (zh) * 2017-12-29 2019-07-16 中移(杭州)信息技术有限公司 一种对象推荐方法及设备
CN110083253A (zh) * 2018-01-25 2019-08-02 北京搜狗科技发展有限公司 一种输入方法和装置
CN110930998A (zh) * 2018-09-19 2020-03-27 上海博泰悦臻电子设备制造有限公司 语音互动方法、装置及车辆
CN110955821A (zh) * 2018-09-25 2020-04-03 北京搜狗科技发展有限公司 一种推荐方法、装置及可读介质
CN110955821B (zh) * 2018-09-25 2024-05-17 北京搜狗科技发展有限公司 一种推荐方法、装置及可读介质
CN113325959A (zh) * 2021-05-26 2021-08-31 北京沃东天骏信息技术有限公司 一种输入语料的推荐方法和装置
CN114141387A (zh) * 2021-11-25 2022-03-04 泰康保险集团股份有限公司 互联网医疗会话中交互信息推荐方法、装置及设备
CN114141387B (zh) * 2021-11-25 2024-08-16 泰康保险集团股份有限公司 互联网医疗会话中交互信息推荐方法、装置及设备

Similar Documents

Publication Publication Date Title
CN102426591A (zh) 一种操作用于内容输入的语料库的方法和设备
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
US8688702B1 (en) Techniques for using dynamic data sources with static search mechanisms
US20130262467A1 (en) Method and apparatus for providing token-based classification of device information
US20170235726A1 (en) Information identification and extraction
US20140006408A1 (en) Identifying points of interest via social media
CN107683471A (zh) 索引具有深度链接的网页
CN102306171A (zh) 一种用于提供网络访问建议和网络搜索建议的方法与设备
CN101986293A (zh) 用于在搜索界面中呈现搜索答案信息的方法及设备
CN107092639A (zh) 一种搜索引擎系统
US9858332B1 (en) Extracting and leveraging knowledge from unstructured data
CN102346778A (zh) 一种用于提供搜索结果的方法与设备
CN102236710A (zh) 一种用于在查询结果中展现新闻信息的方法与设备
CN102663088A (zh) 一种用于提供搜索结果的方法与设备
CN105677927A (zh) 用于提供搜索结果的方法和装置
KR20170073693A (ko) 유사 그룹 요소 추출
CN103257975A (zh) 一种搜索方法、装置及系统
US20170235835A1 (en) Information identification and extraction
CN103076894A (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN103714120A (zh) 一种从用户url访问记录中提取用户兴趣话题的系统
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
US20120284224A1 (en) Build of website knowledge tables
US10504145B2 (en) Automated classification of network-accessible content based on events
US20170270195A1 (en) Providing token-based classification of device information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120425