CN104166455A - 用于确定目标用户所对应的输入模型的方法与设备 - Google Patents

用于确定目标用户所对应的输入模型的方法与设备 Download PDF

Info

Publication number
CN104166455A
CN104166455A CN201310182906.5A CN201310182906A CN104166455A CN 104166455 A CN104166455 A CN 104166455A CN 201310182906 A CN201310182906 A CN 201310182906A CN 104166455 A CN104166455 A CN 104166455A
Authority
CN
China
Prior art keywords
input
training result
information
user
targeted customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310182906.5A
Other languages
English (en)
Other versions
CN104166455B (zh
Inventor
黄艺华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310182906.5A priority Critical patent/CN104166455B/zh
Publication of CN104166455A publication Critical patent/CN104166455A/zh
Application granted granted Critical
Publication of CN104166455B publication Critical patent/CN104166455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的目的是提供一种确定目标用户所对应的输入模型的方法与设备。具体地,网络设备端获取目标用户通过用户设备提交的语料训练请求,其中,语料训练请求包括目标用户所选择的训练语料数据;根据训练语料数据,确定与语料训练请求相对应的输入训练结果;将所述输入训练结果发送至用户设备。其中,与现有技术相比,本发明通过根据获取的目标用户通过用户设备提交的语料训练请求中包括所述目标用户所选择的训练语料数据,确定与所述语料训练请求相对应的输入训练结果,以根据输入训练结果,建立或更新所述目标用户所对应的输入模型,提高了输入模型与用户输入需求匹配的准确度,提高了输入效率。

Description

用于确定目标用户所对应的输入模型的方法与设备
技术领域
本发明涉及输入法技术领域,尤其涉及一种用于确定目标用户所对应的输入模型的技术。
背景技术
输入法通过采用一定编码方法将各种符号输入计算机或其他设备(如手机),来完成语言的输入,其大大方便了用户与计算机或其他设备的交互。然而,不同用户输入相同内容时,其希望展现的候选项信息不同,用户对输入法模型的个性化需求越来越强烈,现有输入法模型的用户个性化实现通常仅限于在原有反映所有用户总体输入特点的词库中增加某一用户的新词和/或结合用户的词频等简单的方式,而且,现有技术的实现需要更高的资源处理开销,因而也不适用于资源处理能力有限的移动终端,从而不仅影响了输入法模型与用户输入需求匹配的准确度,也影响了用户输入体验。
发明内容
本发明的目的是提供一种用于确定目标用户所对应的输入模型的方法与设备。
根据本发明的一个方面,提供了一种在网络设备端用于辅助确定目标用户所对应的输入模型的方法,其中,该方法包括以下步骤:
a获取目标用户通过用户设备提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;
b根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
c将所述输入训练结果发送至所述用户设备。
根据本发明的另一个方面,提供了一种在用户设备端用于确定目标用户所对应的输入模型的方法,其中,该方法包括以下步骤:
A获取目标用户所选择的训练语料数据;
B向对应的网络设备发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;
C接收所述网络设备基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
D根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。
根据本发明的一个方面,还提供了一种用于辅助确定目标用户所对应的输入模型的网络设备,其中,该网络设备包括:
请求获取装置,用于获取目标用户通过用户设备提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;
结果确定装置,用于根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
结果发送装置,用于将所述输入训练结果发送至所述用户设备。
根据本发明的另一个方面,还提供了一种于确定目标用户所对应的输入模型的设用户备,其中,该用户设备包括:
数据获取装置,用于获取目标用户所选择的训练语料数据;
请求发送装置,用于向对应的网络设备发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;
结果接收装置,用于接收所述网络设备基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
输入模型建立装置,用于根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。
根据本发明的又一个方面,还提供了一种用于确定目标用户所对应的输入模型的系统,其中,该系统包括前述根据本发明一个方面的用于确定目标用户所对应的输入模型的网络设备和前述根据本发明另一个方面的用于确定目标用户所对应的输入模型的用户设备。
与现有技术相比,本发明通过根据获取的目标用户通过用户设备提交的语料训练请求中包括所述目标用户所选择的训练语料数据,确定与所述语料训练请求相对应的输入训练结果,以根据输入训练结果,建立或更新所述目标用户所对应的输入模型,提高了输入模型与用户输入需求匹配的准确度,提高了输入效率,且输入训练结果在网络设备端完成,也降低了用户设备端的资源开销。而且,本发明还可获取对应于多个用户的统计输入模型,以根据所述统计输入模型,调整根据所述训练语料数据确定的所述目标用户所对应的所述初始训练结果,以获得所述输入训练结果,进一步地提高了所述输入训练结果与所述目标用户需求匹配度。此外,本发明还可获取所述目标用户对所述输入训练结果的选择处理,以根据所选择的输入训练结果,建立或更新所述目标用户所对应的输入模型,更进一步地提高了输入模型与用户输入需求匹配的准确度,提高了输入效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面用于确定目标用户所对应的输入模型的网络设备与用户设备的设备示意图;
图2示出根据本发明一个优选实施例的用于确定目标用户所对应的输入模型的网络设备的设备示意图;
图3示出根据本发明另一个方面的网络设备和用户设备配合实现用于确定目标用户所对应的输入模型的方法流程图;
图4示出根据本发明一个优选实施例的网络设备用于确定目标用户所对应的输入模型的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面用于确定目标用户所对应的输入模型的网络设备1与用户设备2,其中,网络设备1包括请求获取装置11、结果确定装置12和结果发送装置13,用户设备2包括数据获取装置21、请求发送装置22、结果接收装置23和输入模型建立装置24。具体地,用户设备2的数据获取装置21获取目标用户所选择的训练语料数据;请求发送装置22向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;相应地,网络设备1的请求获取装置11获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;结果确定装置12根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;结果发送装置13将所述输入训练结果发送至所述用户设备2;相应地,用户设备2的结果接收装置23接收所述网络设备1基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;输入模型建立装置24根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。
在此,所述网络设备1包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在此,所述用户设备2可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
本领域技术人员应能理解上述网络设备1或用户设备2仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备1及用户设备2均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,用户设备2的数据获取装置21通过调用用户设备自身提供的提供训练预料数据的应用程序接口(API),获取目标用户所选择的训练语料数据;或者,通过第三方应用平台如输入法客户端Input-methodl-client提供的应用程序接口(API),获取目标用户所选择的训练语料数据;或者,通过JSP、ASP等动态网页技术,获取目标用户所选择的训练语料数据。在此,所述训练语料数据反映了所述目标用户在文本输入过程中经常输入的文本信息(如文字、读音等)、输入行为信息等(如只输入文字首字母、输入长度较短、喜欢用缩写、读音、按键错误不时常发生、喜欢选用表情符号代替文本等),其包括但不限于以下至少任一项:1)所述目标用户的历史输入记录;2)所述目标用户的曾撰写的文本;3)其他反映所述目标用户输入行为的文本集合,如某领域的术语列表。本领域技术人员应能理解上述训练语料数据仅为举例,其他现有的或今后可能出现的训练语料数据如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,假设用户A通过其智能手机iphone中已安装的第三方应用平台如输入法客户端提供的应用程序接口(API),选择其之前撰写的文本如文章、发表的帖子等,以及其常用的某领域如数学、通信、物理等的资料,以将该等文本上传至对应的网络设备2,则数据获取装置21通过该第三方应用平台如输入法客户端提供的应用程序接口(API),便获取到用户A所选择的文本,以将其作为所述训练语料数据。在此,本发明实现了用户可以选择特定的训练语料数据,不仅具有更高的训练效率(如不需要等到用户有那么多输入记录),还可以针对性地得到用户所希望的输入法习惯(例如某个领域的新用户可以将该领域的典型句段作为训练语料),从而进一步地提高了输入效率的有益效果。
优选地,数据获取装置21还可根据所述目标用户对其历史输入相关信息的选择操作,获取所述训练语料数据。在此,所述历史输入相关信息包括但不限于以下至少任一项:1)所述目标用户的历史输入记录;2)所述目标用户的曾撰写的文本;3)其他反映所述目标用户输入行为的文本集合,如某领域的术语列表。例如,接上例,用户A通过其智能手机iphone中已安装的第三方应用平台如输入法客户端如Input-methodl-client提供的应用程序接口(API),选择其保存于本地的之前撰写和/或发表的文章如《载波聚合(Carrier Aggregation)介绍》、《LTE中的PRACH》等,以及输入法记录的该用户A的历史输入记录如输入的词语、输入习惯等,然后点击“确定”按钮,则数据获取装置21通过JSP、ASP等动态网页技术,便获取到用户A对其历史输入相关信息的选择操作,进而数据获取装置21通过该第三方应用平台如输入法客户端Input-methodl-client提供的应用程序接口(API),便获取到用户A所选择的历史输入相关信息,以将其作为所述训练语料数据。
本领域技术人员应能理解上述获取目标用户所选择的训练语料数据的方式仅为举例,其他现有的或今后可能出现的获取目标用户所选择的训练语料数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
请求发送装置22通过约定的通信方式,如http或https等通信协议,向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据。例如,接上例,请求发送装置22向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括用户A选择的其保存于本地的之前撰写和/或发表的文章如《载波聚合(CarrierAggregation)介绍》、《LTE中的PRACH》等,以及该用户A的历史输入记录如输入的词语、输入习惯等训练语料数据。
相应地,网络设备1的请求获取装置11获取目标用户通过用户设备2提交的语料训练请求,如通过网络设备1提供的应用程序接口(API),或者,通过约定的通信方式,如http或https等通信协议,接收用户设备2发送的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据。
结果确定装置12根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应。在此,所述输入训练结果用于描述所述目标用户的语言特征信息、输入特征信息,以及辅助输入特征信息,反映了该目标用户积久养成的输入方式等。其中,所述语言特征信息包括但不限于以下至少任一项参数信息:1)孤立的词频,即单个词出现的频率;2)词与词的关联信息,即给定上文时该词的词频,反映了一个词与另一个词共现的频率,如对于词语“监听”,其上文词语如为“秘密”时所对应的词频,再如,对于词语“舰艇”,其上文词语如为“驾驶”时所对应的词频;3)对于多音词,该多音词对应不同读音的频率,如对于词语“澄清”,其读音包括:①“Chéng qīng”:1.形容水清澈、明亮2.弄清事情的真相;②“Dèng qīng”:使液体中的杂质沉淀。其中,所述输入特征信息包括但不限于以下至少任一项参数信息:1)用户习惯输入全拼还是简拼;2)输入长度,如通常输入整句还是单个词、字;3)是否习惯性读音错误,以及错误详情如何;4)是否习惯按键错误,以及错误详情如何。其中,所述辅助输入特征信息包括但不限于以下至少任一项参数信息:1)中文兼用英文;2)是否习惯表情符号;3)特殊领域词语,如古诗词、成语俗语、常见地名、流行游戏、专业词汇等;4)人名等。本领域技术人员应能理解上述语言特征信息、输入特征信息和辅助输入特征信息仅为举例,其他现有的或今后可能出现的语言特征信息或输入特征信息或辅助输入特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,结果确定装置12确定所述输入训练结果的方式包括但不限于以下至少任一项:
1)根据所述训练语料数据,通过预定语言模型,诸如适用于中文拼音输入法的基于统计的N-gram模型,适用于日文输入法的基于统计的N-POS模型等,确定所述目标用户所对应的初始语言特征信息,以将该初始语言特征信息作为所述输入训练结果。例如,假设请求获取装置11获取到的所述训练语料数据包括如下训练语料数据I至IV:
I文章《载波聚合(Carrier Aggregation)介绍》中的文本内容:
“为了满足LTE-A下行峰速1Gbps,上行峰速500Mbps的要求,需要提供最大100MHz的传输带宽,但由于这么大带宽的连续频谱的稀缺,LTE-A提出了载波聚合的解决方案。载波聚合(Carrier Aggregation,CA)是将2个或更多的载波单元(Component Carrier, CC)聚合在一起以支持更大的传输带宽(最大为100MHz)。涉及到的基本概念如下:Primary Cell(PCell):主小区是工作在主频带上的小区。UE在该小区进行初始连接建立过程,或开始连接重建立过程;Secondary Cell(SCell):辅小区是工作在扶贫带上的小区。一旦RRC连接建立,辅小区就可能被配置以提供额外的无线资源(见36.331的3.1节;Serving Cell:处于RRC_CONNECTED态的UE,如果没有配置CA,则只有一个ServingCell,即PCell;如果配置了CA,则Serving Cell集合是由PCell和SCell组成(见36.331的3.1节)。......”
II文章《LTE中的PRACH》中的文本内容:“UE通过上行RACH来达到与LTE系统之间的上行接入和同步。在FDD模式下(以下若未特别指出,均是对FDD模式而言)PRACH的大小为6个RB,每个子帧中,至多有一个PRACH(36.211,Section5.7.1)。TDD模式下,允许一个子帧中存在多个频分的PRACH。PRACH中的前导序列,包含长度为的循环前缀(CP)和长度为的序列。为了适应不同的小区大小,LTEFDD中的PRACH定义了四种类型,......”
III用户A的历史输入记录,以汉语拼音输入法为例:
i)全拼输入次数占总输入次数的99%,如输入“计算机”时输入“jisuanji”、如输入“载波聚合”输入“zaibojuhe”等;
ii)对于长句,输入整句、多个词语次数占总输入次数的90%,如输入“主小区是工作在主频带的小区”输入“zhuxiaoqushigongzuozai”、“zhupindai”、“shangde”、“xiaoqu”;
iii)专业术语全部采用缩写,如“LTE”、“PDCCH”、“TDD”等;
iv)读音、按键错误不时常发生;
v)喜欢选用表情符号代替文本等,如输入“哈哈”,喜欢用表情符号“∧_∧”或“O(∩_∩)O哈哈~”代替,再如,输入“不高兴”,喜欢用表情符号“(∨□∨)”代替等;
IV收集的古诗词及解析:
i)秋思·洛阳城里见秋风 张籍
洛阳城里见秋风,欲作家书意万重
复恐匆匆说不尽,行人临发又开封
赏析:这是乡愁诗,通过叙述写信前后的心情,表达乡愁之深。第一句交代“作家书”的原因(“见秋风”),以下三句是描写作书前、作书后的心理活动。作书前是“意万重”,作书后是“复恐说不尽”。“临发开封”这个细节把“复恐说不尽”的心态表现得栩栩如生,意形相融。写的是人人意中常有之事,却非人人所能道出。作客他乡,见秋风而思故里,托便人捎信。临走时怕遗漏了什么,又连忙打开看了几遍。事本子平,而一经入诗,特别是一经张籍这样的高手入诗,便臻妙境。
ii)池上咏柳 白居易
青莎台上起书楼,绿藻潭中系钓舟。
日晚爱行深竹里,月明多上小桥头。
暂尝新酒还成醉,亦出中门便当游。
一部清商聊送老,白须萧飒管弦秋。
赏析:“多上”:一作多在。“日晚爱行深竹里,月明多在小桥头”这两句是说,晚间竹林里清幽雅静,我爱在那里漫步游赏;月照林上,竹影婆娑,月光最明的地方,是在那空旷的小桥头。竹间漫步,桥头赏月,均极惬意,见诗人官闲优游之状。“一部清商①聊②送老,白发萧飒③管弦秋”,①清商:此指清商曲,乐府歌曲名。声调比较清越,故名。②聊:姑且。③萧飒:萧条冷落。七律《池上闲咏》,是白居易任太子宾客分司东都洛阳时所作。这两句是说,听一部声调清越的乐曲,姑且当作老年人打发时光的一种乐趣;但是,苍苍白发,萧条冷落的晚年,不是管弦的力量能够扭转的。这时白居易六十二岁,向居闲官,闲适恬静,但恬静中,似有一种“萧飒”般的寂寥之感,情绪消沉,乐中含怨,细细吟咏,韵味悠长。
则结果确定装置12根据训练语料数据I至IV,通过预定语言模型,如适用于中文拼音输入法的基于统计的N-gram模型,对训练语料数据I至IV对应的文本进行切词处理,并对切词后获得的词语进行统计处理,获得训练语料数据I至IV中所有词语对应的词频,并统计词语的共现信息如“载波”与“聚合”共现的频率等,从而获得所述目标用户所对应的初始语言特征信息original-language-features-A,包括如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”等,则结果确定装置12可将该初始语言特征信息original-language-features-A作为所述输入训练结果。
2)对所述训练语料数据中包含的所述目标用户的用户输入记录(如输入长度、是否缩写、读音、按键错误等))进行统计处理,以获得所述目标用户的初始输入特征信息,并将该初始输入特征信息作为所述输入训练结果。例如,接上例,结果确定装置12根据训练语料数据I至IV,对所述训练语料数据中包含的所述目标用户的用户输入记录如训练语料数据III中包含的所述目标用户的用户输入记录进行统计处理,从而获得所述目标用户的初始输入特征信息original-input-features-A,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生;则结果确定装置12可将该初始输入特征信息original-input-features-A作为所述输入训练结果。
3)结合所述目标用户所属的用户类别对应的类输入结果信息,对前述初始语言特征信息和/或初始输入特征信息进行调整处理,以获得所述输入训练结果。在此,所述类输入结果信息用于描述某类别用户总体的语言特征信息、输入特征信息,以及辅助输入特征信息,与所述输入训练结果具有相同或相似的参数信息。例如,假设与用户A属于通信领域专业技术型用户类别communication-user-class,而通信领域专业技术型用户类别所对应的类输入结果信息communication-info包括:a)词典规模,即技术型用户类别所对应的词库信息,如词条数量等;b)通信领域专业术语包括“3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等,则结果确定装置12可根据该类输入结果信息communication-info,对前述初始语言特征信息和/或初始输入特征信息进行调整处理,如将该类输入结果信息communication-info加入到前述初始语言特征信息和/或初始输入特征信息中,即加入到用户A对应的初始语言特征信息original-language-features-A和/或初始输入特征信息original-input-features-A中,以获得所述输入训练结果如training-results-A,包括:I)初始语言特征信息,如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、等;2)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;Ⅱ)初始输入特征信息,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生。
4)在前述初始语言特征信息和/或初始输入特征信息中加入所述目标用户的参考用户如与该参考用户属于同类型用户的其他用户的辅助输入特征信息,以获得所述输入训练结果。例如,假设与用户A属于同类型用户的用户B对应的参考输入结果信息reference-B包括:b1)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;b2)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;b3)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次,则结果确定装置12可将用户B对应的参考输入结果信息加入到前述初始语言特征信息和/或初始输入特征信息中,即加入到用户A对应的初始语言特征信息original-language-features-A和/或初始输入特征信息original-input-features-A中,以获得所述输入训练结果。
本领域技术人员应能理解上述确定与所述语料训练请求相对应的输入训练结果的方式仅为举例,其他现有的或今后可能出现的确定与所述语料训练请求相对应的输入训练结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
结果发送装置13通过约定的通信方式,如http或https等通信协议,将所述输入训练结果发送至所述用户设备2。
相应地,用户设备2的结果接收装置23通过约定的通信方式,如http或https等通信协议,接收所述网络设备1基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应。
输入模型建立装置24根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。在此,所述输入模型是指自然语言处理中根据用户的输入(如中英文输入、按键错误输入、符号夹杂输入等),计算与该输入相对应的可能的候选结果,以及候选结果对应的概率信息的数学模型,包括用于描述词语间搭配的概率信息、词频、编码与词条映射频率的调整信息等自然语言统计特征的语言模型,以及用于描述与用户输入特征相对应的模型部分。例如,假设对于用户A,结果接收装置23接收到的所述输入训练结果training-results-A包括:I)初始语言特征信息original-language-features-A’,如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”等;2)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;Ⅱ)初始输入特征信息original-input-features-A’,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生,则输入模型建立装置24根据该输入训练结果包括的各项参数信息,建立目标用户A所对应的输入模型input-model-A,并且,当目标用户A通过用户设备提交新的语料训练请求,结果接收装置23接收到新的输入训练结果时,输入模型建立装置24还可根据该新的输入训练结果,对之前建立的所述输入模型进行更新,比如,按一定方式进行更新,如立即更新、按一定周期进行更新等。在此,本发明实现了使更新后的所述输入模型更进一步地满足目标用户A所希望的输入法习惯的需求的有益效果。
优选地,输入模型建立装置24还可首先通过诸如ASP、JSP等动态网页技术,获取所述目标用户对所述输入训练结果的选择处理,以获得所选择的输入训练结果;然后,根据所选择的输入训练结果,建立或更新所述目标用户所对应的输入模型。具体地,输入模型建立装置24还可首先通过约定的通信方式,如http或https等通信协议,将所述输入训练结果提供给所述目标用户;然后,再通过诸如ASP、JSP等动态网页技术,获取所述目标用户对所述输入训练结果的选择处理,以获得所选择的输入训练结果;接着,根据所选择的输入训练结果,建立或更新所述目标用户所对应的输入模型。例如,输入模型建立装置24通过约定的通信方式,如http或https等通信协议,将结果接收装置23接收到的所述输入训练结果training-results-A,提供给用户A,假设用户A选择了输入训练结果training-results-A所在窗口中的关于是否运用训练结果training-results-A建立或更新所述目标用户所对应的输入模型的“确认”按钮,则输入模型建立装置24通过诸如ASP、JSP等动态网页技术,便获取到用户A对所述输入训练结果training-results-A的选择处理;接着,输入模型建立装置24根据该输入训练结果training-results-A,建立或更新用户A所对应的输入模型input-model-A,如运用输入训练结果training-results-A代替原有输入训练结果如original-training-results-A,以建立或更新用户A所对应的输入模型input-model-A。
本领域技术人员应能理解上述建立或更新所述目标用户所对应的输入模型的方式仅为举例,其他现有的或今后可能出现的建立或更新所述目标用户所对应的输入模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
网络设备1和用户设备2的各个装置之间是持续不断工作的。具体地,用户设备2的数据获取装置21获取目标用户所选择的训练语料数据;请求发送装置22持续向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;相应地,网络设备1的请求获取装置11持续获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;结果确定装置12持续根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;结果发送装置13持续将所述输入训练结果发送至所述用户设备2;相应地,用户设备2的结果接收装置23持续接收所述网络设备1基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;输入模型建立装置24持续根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。在此,本领域技术人员应能理解“持续”是指网络设备1和用户设备2的各个装置之间分别不断地进行训练语料数据的获取与发送、输入训练结果的确定与发送、输入模型的建立或更新,直至用户设备2在较长时间内停止训练语料数据的获取。
在一个优选实施例中(参考图1),其中,网络设备1包括请求获取装置11、结果确定装置12、结果发送装置13和权重确定装置(未示出),用户设备2包括数据获取装置21、请求发送装置22、结果接收装置23和输入模型建立装置24。以下参考图1对该优选实施例进行描述:具体地,用户设备2的数据获取装置21获取目标用户所选择的训练语料数据;请求发送装置22向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;相应地,网络设备1的请求获取装置11获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;结果确定装置12根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;权重确定装置根据所述训练语料数据,确定所述输入训练结果所对应的权重信息;结果发送装置13将所述输入训练结果及所述权重信息发送至所述用户设备2;相应地,用户设备2的结果接收装置23接收所述网络设备1基于所述语料训练请求所发送的输入训练结果及其对应的权重信息,其中,所述输入训练结果与所述训练语料数据相对应;输入模型建立装置24根据所述输入训练结果,结合所述权重信息,建立或更新所述输入模型。在此,网络设备1的请求获取装置11、结果确定装置12,及用户设备2的数据获取装置21、请求发送装置22分别与图1所示对应装置相同或相似,故在此处不再赘述,并通过引用的方式包含于此。
具体地,权重确定装置根据所述训练语料数据,确定所述输入训练结果所对应的权重信息;其中,所述权重信息基于以下任一项规则来确定;
-根据所述训练语料数据的数据数量信息,确定所述权重信息;
-根据所述训练语料数据的数据质量信息,确定所述权重信息。
例如,当根据所述训练语料数据的数据数量信息,确定所述权重信息时,假设请求获取装置11获取到的所述语料训练请求中包括的用户A选择的所述训练语料数据包括前述训练语料数据I至IV,其中,训练语料数据I和Ⅱ体现所述输入训练结果training-results-A中关于①通信领域专业术语和②词与词的关联信息方面的数据,训练语料数据III中包含的5条文本中有4条体现所述输入训练结果中关于③初始输入特征信息方面的数据,有1条体现所述输入训练结果中关于④习惯运用表情符号方面的数据,训练语料数据IV中包含的两个文本体现所述输入训练结果中关于⑤古诗词信息及⑥特殊人名方面的数据,假设参数每多一条训练语料数据,则其对应的权重就多0.2,且参数权重数值最高为1,假设每一参数对应的初始权重均相等,如为0.5,则权重确定装置训练语料数据I至IV的数据数量信息,可确定所述输入训练结果中各参数对应的权重信息,则权重确定装置确定输入训练结果training-results-A中各参数:①通信领域专业术语、②词与词的关联信息、③初始输入特征信息、④习惯运用表情符号、⑤古诗词信息及⑥特殊人名方面的数据所对应的权重信息分别0.7、0.7、1、0.5、0.7、0.7。
再如,当根据所述训练语料数据的数据质量信息,确定所述权重信息时,在此,所述数据质量信息表示所述训练语料数据是否有编辑错误造成的噪音,或者,属于错误上传的垃圾数据等。具体地,权重确定装置首先根据预定语言模型如适用于中文拼音输入法的基于统计的N-gram模型,适用于日文输入法的基于统计的N-POS模型等,通过自然语言处理方法,确定所述训练语料数据的数据质量信息;然后,再根据所述训练语料数据的数据质量信息,确定所述权重信息。例如,接上例,假设权重确定装置确定前述训练语料数据I至IV中训练语料数据IV属于错误上传的垃圾数据,训练语料数据I中具有编辑错误如“辅小区是工作在扶贫带上的小区”中的“扶贫”应为“辅频”,假设每一参数对应的初始权重均相等,如为0.5,每出现一处错误,权重降低0.1,但属于垃圾数据时,对应的权重为0,则权重确定装置确定输入训练结果training-results-A中各参数:①通信领域专业术语、②词与词的关联信息、③初始输入特征信息、④习惯运用表情符号、⑤古诗词信息及⑥特殊人名方面的数据所对应的权重信息分别0.4、0.5、0.5、0.5、0、0。
本领域技术人员应能理解,权重确定装置还可以根据上述权重信息判断规则的组合,来确定所述输入训练结果所对应的权重信息。
本领域技术人员应能理解上述确定所述输入训练结果所对应的权重信息的方式仅为举例,其他现有的或今后可能出现的确定所述输入训练结果所对应的权重信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
结果发送装置13通过约定的通信方式,如http或https等通信协议,将所述输入训练结果及所述权重信息发送至所述用户设备2。
相应地,用户设备2的结果接收装置23通过约定的通信方式,如http或https等通信协议,接收所述网络设备1基于所述语料训练请求所发送的输入训练结果及其对应的权重信息,其中,所述输入训练结果与所述训练语料数据相对应。
输入模型建立装置24根据所述输入训练结果,结合所述权重信息,建立或更新所述输入模型。例如,假设权重确定装置确定的输入训练结果training-results-A中各参数:①通信领域专业术语、②词与词的关联信息、③初始输入特征信息、④习惯运用表情符号、⑤古诗词信息及⑥特殊人名方面的数据所对应的权重信息分别0.7、0.7、1、0.5、0.7、0.7,则输入模型建立装置24根据该输入训练结果training-results-A,建立或更新用户A所对应的输入模型input-model-A,如结合所述权重信息,将输入训练结果training-results-A叠加到用户A的智能手机iphone中正运用的第三方应用平台如输入法客户端如Input-methodl-client对应的原有输入训练结果如original-training-results-A中,如通过以下叠加公式(1)将输入训练结果training-results-A各参数与其对应的权重信息的乘积与原有输入训练结果如original-training-results-A中对应的参数进行叠加:
α*T′+(1-α)*T  (1)其中,T’表示输入训练结果training-results-A各参数,α表示T’参数对应的权重信息,且0<α<1,T表示原有输入训练结果如original-training-results-A中与输入训练结果training-results-A的参数T’相对应的参数,则输入模型建立装置24通过计算上述公式(1)便可得到更新后的所述输入训练结果new-training-results-A;接着,输入模型建立装置24根据更新后的所述输入训练结果new-training-results-A,更新用户A所对应的输入模型input-model-A。
优选地,用户设备2还包括候选项确定装置(未示出)和提供装置(未示出)。具体地,候选项确定装置根据所述输入模型,确定与所述目标用户的输入信息相对应的候选项信息;提供装置将所述候选项信息提供给所述目标用户。
具体地,候选项确定装置根据所述输入模型,确定与所述目标用户的输入信息相对应的候选项信息。例如,假设用户A在其智能手机iphone上建立或更新输入模型input-model-A之后,当用户A需要输入文本时,例如假设用户A输入信息“jianting”,假设输入模型input-model-A中对应的参数信息表明“监听”的词频比“舰艇”的词频高,且用户A对应的输入特征信息为全拼单个词输、不常读错或输错,则候选项确定装置输入信息“jianting”对应的候选项信息如“舰艇、监听、坚挺、兼听”等中“监听”对应的排序高于其他候选项“舰艇、坚挺、兼听”;再如,接上例,假设输入信息“jianting”对应的上文为“秘密”,则候选项确定装置确定“监听”对应的排序高于其他候选项“舰艇、坚挺、兼听”;还如,还接上例,假设输入信息“jianting”对应的上文为“驾驶”,则候选项确定装置确定“舰艇”对应的排序高于其他候选项“监听、坚挺、兼听”。
本领域技术人员应能理解上述确定与所述目标用户的输入信息相对应的候选项信息的方式仅为举例,其他现有的或今后可能出现的确定与所述目标用户的输入信息相对应的候选项信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,提供装置通过约定的通信方式,如http或https等通信协议,将所述候选项信息提供给所述目标用户,供其浏览选择。
图2示出根据本发明一个优选实施例的用于确定目标用户所对应的输入模型的网络设备1的设备示意图。其中,网络设备1包括请求获取装置11’、结果确定装置12’、结果发送装置13’和统计模型获取装置(未示出),其中,结果确定装置12’包括初始结果确定单元121’和调整单元122’。具体地,请求获取装置11’获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;统计模型获取装置获取对应于多个用户的统计输入模型;初始结果确定单元121’根据所述训练语料数据,确定所述目标用户所对应的初始训练结果;调整单元122’根据所述统计输入模型,调整所述初始训练结果,以获得所述输入训练结果。结果发送装置13’将所述输入训练结果发送至用户设备2。在此,请求获取装置11’和结果发送装置13’分别与图1所示对应装置相同或相似,故在此处不再赘述,并通过引用的方式包含于此。
具体地,统计模型获取装置通过诸如提供统计输入模型的第三方设备的应用程序接口(API),获取对应于多个用户的统计输入模型。在此,所述统计输入模型包括自然语言处理中的语言模型,包含词语间搭配的概率信息,其模型参数其反映全体用户或属于相同用户类别的用户的语言特征信息、输入特征信息,以及辅助输入特征信息等。例如,用户A在其的智能手机iphone中第一次安装第三方应用平台如输入法客户端如Input-method1-client时,则统计模型获取装置通过第三方应用平台如输入法客户端如Input-method1-client的应用程序接口(API),便可获取到输入法Input-method1,即获取到所述统计输入模型,其对应于多个用户。
本领域技术人员应能理解上述获取对应于多个用户的统计输入模型的方式仅为举例,其他现有的或今后可能出现的获取对应于多个用户的统计输入模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
初始结果确定单元121’根据所述训练语料数据,确定所述目标用户所对应的初始训练结果。在此,所述初始训练结果用于描述所述目标用户的初始语言特征信息、初始输入特征信息,反映了该目标用户初始的输入方式等信息。其中,所述初始语言特征信息包括但不限于以下至少任一项参数信息:1)孤立的词频,即单个词出现的频率;2)词与词的关联信息,即给定上文时该词的词频,反映了一个词与另一个词共现的频率,如对于词语“监听”,其上文词语如为“秘密”时所对应的词频,再如,对于词语“舰艇”,其上文词语如为“驾驶”时所对应的词频;3)对于多音词,该多音词对应不同读音的频率,如对于词语“澄清”,其读音包括:①“Chéng qīng”:1.形容水清澈、明亮2.弄清事情的真相;②“Dèng qīng”:使液体中的杂质沉淀。其中,所述初始输入特征信息包括但不限于以下至少任一项参数信息:1)用户习惯输入全拼还是简拼;2)输入长度,如通常输入整句还是单个词、字;3)是否习惯性读音错误,以及错误详情如何;4)是否习惯按键错误,以及错误详情如何。本领域技术人员应能理解上述初始语言特征信息和初始输入特征信息仅为举例,其他现有的或今后可能出现的初始语言特征信息或初始输入特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,初始结果确定单元121’可首先根据所述训练语料数据,通过预定语言模型,诸如适用于中文拼音输入法的基于统计的N-gram模型,适用于日文输入法的基于统计的N-POS模型等,确定所述目标用户所对应的初始语言特征信息。例如,初始结果确定单元121’根据前述训练语料数据I至IV,通过预定语言模型,如适用于中文拼音输入法的基于统计的N-gram模型,对训练语料数据I至IV对应的文本进行切词处理,并对切词后获得的词语进行统计处理,获得训练语料数据I至IV中所有词语对应的词频,并统计词语的共现信息如“载波”与“聚合”共现的频率等,从而获得所述目标用户所对应的初始语言特征信息original-language-features-A,包括如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”等。
然后,初始结果确定单元121’对所述训练语料数据中包含的所述目标用户的用户输入记录(如输入长度、是否缩写、读音、按键错误等))进行统计处理,以获得所述目标用户的初始输入特征信息。例如,初始结果确定单元121’根据训练语料数据I至IV,对所述训练语料数据中包含的所述目标用户的用户输入记录如训练语料数据III中包含的所述目标用户的用户输入记录进行统计处理,从而获得所述目标用户的初始输入特征信息original-input-features-A,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生。
接着,初始结果确定单元121’可将所述初始语言特征信息及所述初始输入特征信息作为初始训练结果。例如,接上例,初始结果确定单元121’将初始语言特征信息original-language-features-A及初始输入特征信息original-input-features-A作为初始训练结果。
本领域技术人员应能理解,在具体实施例中,统计模型获取装置与初始结果确定单元121’可以是并行的处理,也可以串行的处理。
调整单元122’根据所述统计输入模型,调整所述初始训练结果,以获得所述输入训练结果。在此,调整单元122’调整所述初始训练结果以获得所述输入训练结果的方式包括但不限于以下至少任一项:
1)根据所述目标用户所属的用户类别对应的统计模型的模型参数,如该用户类别对应的类输入结果信息,对所述初始训练结果进行调整处理,以获得所述输入训练结果,如在所述初始训练结果中加入所述类输入结果信息。例如,假设与用户A属于通信领域专业技术型用户类别communication-user-class,而通信领域专业技术型用户类别所对应的类输入结果信息如communication-info包括:a)词典规模,即技术型用户类别所对应的词库信息,如词条数量等;b)通信领域专业术语包括“3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等,则调整单元122’将该类输入结果信息communication-info加入到初始结果确定单元121’确定的所述初始输入结果中,即加入到用户A对应的初始语言特征信息original-language-features-A和初始输入特征信息original-input-features-A中,以获得所述输入训练结果,包括:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”等;2)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;6)习惯输入全拼;7)对于长句,习惯输入整句、多个词语;8)习惯用缩写;9)读音、按键错误不时常发生。
2)根据所述统计输入模型,在所述初始训练结果中加入所述统计输入模型对应的属于所述目标用户的参考用户如与该目标用户属于相同用户类别的其他用户的辅助输入特征信息,以获得所述输入训练结果。例如,假设与用户A属于相同用户类别的用户B对应的参考输入结果信息reference-B包括:b1)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;b2)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;b3)对于多音词,如对于词语“澄清”,输入读音为“Chéngqīng”频次高于输入读音为“Dèng qīng”的频次,则调整单元122’可将用户B对应的参考输入结果信息reference-B加入到所述初始训练结果中,即加入到用户A对应的初始语言特征信息language-features-A和初始输入特征信息input-features-A中,以获得所述输入训练结果,包括:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;6)习惯输入全拼或简拼;7)对于长句,习惯输入整句、多个词语;8)习惯用缩写;9)读音、按键错误不时常发生;10)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèngqīng”的频次。
本领域技术人员应能理解上述调整所述初始训练结果以获得所述输入训练结果的方式仅为举例,其他现有的或今后可能出现的调整所述初始训练结果以获得所述输入训练结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选实施例中(参考图2),其中,调整单元122’包括聚类确定单元(未示出)、参考确定单元(未示出)和初始调整单元(未示出)。具体地,聚类确定单元根据所述初始训练结果,从一个或多个用户聚类中确定所述目标用户所属的用户聚类;参考确定单元从所述目标用户所属的用户聚类中确定参考用户;初始调整单元根据所述统计输入模型,结合所述参考用户所对应的参考模型信息,调整所述初始训练结果,以获得所述输入训练结果。
具体地,聚类确定单元首先从用户聚类数据库中获取一个或多个用户聚类;然后,再根据所述初始训练结果,从该一个或多个用户聚类中确定所述目标用户所属的用户聚类,如将所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息相比较,或者计算所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息之间的距离,以确定所述目标用户所属的用户聚类。
例如,假设初始结果确定单元121’确定用户A的初始训练结果包括参数如1’)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2’)词与词的关联信息,如“载波”与“聚合”关联;3’)习惯运用表情符号;4’)习惯简拼;5’)特殊人名如“张籍”等,而用户聚类数据库中包括的用户聚类为cluster1中包括的相关用户如用户C对应的参考输入结果信息reference-C包括参数:c1)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;c2)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;c3)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次;c4)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c5)词与词的关联信息,如“载波”与“聚合”关联,则聚类确定单元通过将用户A的初始训练结果包括的参数1’至5’分别与用户C对应的参考输入结果信息reference-C包括的参数c1至c5相比较发现,其中,参数1’与c4、参数2’与参数c5、参数3’与参数c1、参数4’与参数c2分别相同,且相同参数的数量占用户C中总参数数量的80%,大于预定阈值60%,则聚类确定单元确定用户A属于用户C所属的用户聚类cluster1。再如,接上例,假设该用户聚类数据库中还包括的用户聚类为cluster2中包括的相关用户如用户D对应的参考输入结果信息reference-D包括参数:d1)习惯用表情符号;d2)特殊人名如“张籍”、“杜甫”等;d3)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次;d4)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;d5)词与词的关联信息,如“载波”与“聚合”关联,则聚类确定单元可通过以下公式(2)计算用户A的初始训练结果包括的参数1’至5’分别与用户D对应的参考输入结果信息reference-D包括的参数d1至d5之间的距离,来确定用户A与用户D之间的距离:
d = &Sigma; i = 1 n ( x i - y i ) 2 - - - ( 2 )
其中,,n为参数数量,xi表示用户A的初始训练结果包括的参数,yi表示用户D对应的参考输入结果信息reference-D包括的参数,在此,x1表示参数1’,x2表示参数2’,等等,y1表示参数d1,y2表示参数d2,等等,n=5,则聚类确定单元根据上述公式(2)得到d=0.093,小于预定阈值如0.5,则聚类确定单元确定用户A还属于用户D所属的用户聚类cluster2。在此,所述用户聚类数据库可位于网络设备1中,也可位于与网络设备1通过网络相连的其他设备中,如服务器。
本领域技术人员应能理解上述计算所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息之间的距离的方式仅为举例,其他现有的或今后可能出现的计算所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息之间的距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,每一用户聚类包含用于表征所述用户聚类的特征的类输入结果信息,其中,聚类确定单元将所述初始训练结果与所述一个或多个用户聚类所对应的所述类输入结果信息进行比较,以确定所述目标用户所属的用户聚类。在此,所述初始训练结果与表征所述用户聚类的特征的类输入结果信息的关系包括但不限于:1)所述初始训练结果与所述类输入结果信息包含相同的参数信息;2)所述类输入结果信息包括所述初始训练结果;3)所述初始训练结果还可与所述类输入结果信息完全一致。例如,接上例,假设初始结果确定单元121’从用户聚类数据库中获取到用户聚类communication-user-class及其对应的类输入结果信息communication-info包括参数:a)词典规模,即技术型用户类别所对应的词库信息,如词条数量等;b)通信领域专业术语包括“3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等,则聚类确定单元通过将用户A的初始训练结果包括的参数1’至5’分别与用户聚类communication-user-class对应的类输入结果信息communication-info包括的参数a至c相比较发现,其中,参数1’与参数b、参数2’与参数c分别相同,且相同参数的数量占用户聚类communication-user-class中总参数数量的66.7%,大于预定阈值60%,则聚类确定单元确定用户A属于用户聚类communication-user-class。
本领域技术人员应能理解上述确定所述目标用户所属的用户聚类的方式仅为举例,其他现有的或今后可能出现的确定所述目标用户所属的用户聚类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
参考确定单元从所述目标用户所属的用户聚类中确定参考用户,如将所述目标用户所属的用户聚类中包括的所有相关用户作为所述参考用户,或者,将所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息相比较,当所述相关输入结果信息中参数与所述初始训练结果中的参数相同的参数数量与所述相关输入结果信息的总参数数量的比值大于预定阈值时,将该相关输入结果信息所对应的相关用户作为所述参考用户。例如,对于前述用户C对应的参考输入结果信息reference-C,其参数与用户A的所述初始训练结果中的参数相同的数量占用户C中总参数数量的80%,大于预定阈值60%,则参考确定单元确定用户聚类cluster1中的用户C为用户A的参考用户。
初始调整单元根据所述统计输入模型,结合所述参考用户所对应的参考模型信息,调整所述初始训练结果,在所述初始训练结果中加入所述统计输入模型对应的属于所述目标用户的参考用户如与该目标用户属于相同用户类别的其他用户的参考输入结果信息,以获得所述输入训练结果。在此,所述参考模型信息用于描述所述参考用户所对应的输入模型的模型参数,与所述输入模型具有相同或相似的模型参数,如语言特征信息、输入特征信息,以及辅助输入特征信息等。例如,假设与用户A属于相同用户类别的用户B对应的参考输入结果信息reference-B包括:b1)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;b2)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;b3)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次,则初始调整单元可将用户B对应的参考输入结果信息reference-B加入到所述初始训练结果中,即加入到用户A对应的初始语言特征信息language-features-A和初始输入特征信息input-features-A中,以获得所述输入训练结果,包括:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;6)习惯输入全拼或简拼;7)对于长句,习惯输入整句、多个词语;8)习惯用缩写;9)读音、按键错误不时常发生;10)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次。
优选地,网络设备1还包括语料获取装置(未示出)、信息确定装置(未示出)和聚类处理装置(未示出)。具体地,语料获取装置获取对应于所述多个用户的语料数据;信息确定装置根据所述多个用户的语料数据,确定所述多个用户的输入结果信息;聚类处理装置根据所述多个用户的输入结果信息,对所述多个用户进行聚类处理,以获得所述一个或多个用户聚类以及与所述用户聚类相对应的类输入结果信息。
具体地,语料获取装置通过诸如微博、博客、QQ空间、贴吧等用户可分享、传播及获取信息的第三方平台提供的应用程序接口(API),获取对应于所述多个用户的语料数据;或者,通过记录用户输入习惯、输入语言等信息并提供该等信息的第三方设备的应用程序接口(API),获取对应于所述多个用户的语料数据。例如,假设用户A’至用户E’分别在其微博、博客等第三方平台中共享了以下信息:
用户A’:《Bag of words model(词袋模型)》
“词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中,文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序。......”
用户B’:《语言模型的基本概念》
“本文介绍一下有关语言模型的基本概念,但是在介绍语言模型之前,先简单回顾一下自然语言处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要是被当前的互联网发展所带动起来的。在互联网上充斥着大量的信息,主要是文字方面的信息,对这些信息的处理离不开自然语言处理的技术。那么究竟什么是自然语言以及自然语言处理呢?......”
用户C’:《奥森公园惊现童话世界》
“今日春分,凌晨一场春雪悄然而至,给平日灰蒙蒙的京城披上漂亮的银装。早晨起来,阳光初露,老笨就近来到奥运森林公园北园,立刻被眼前景象惊呆了。在京生活数十年,从未见过如此美丽景象。这般美景,人间罕见,恐怕只有在童话世界里才有。废话少说,上片啦!”
用户D’:《昙花雪,惹人醉》
“北京的这个春天变化多端。一阵儿漫天的霾,一会儿漫天的沙。
昨天傍晚开始下雨了。夜里转成了雪。
早晨一起,看银装素裹,知道这春天不会让这景色停留,这是冬的告别。
去了颐和园,全是摄影的人......我估计大家是让北京春天的天憋的太久了,就像干部们好长时间没有宴会一样难受。”
用户E’:随机游走模型(Random Surfer Model)
“这就是搜索引擎:核心技术详解》第6章链接分析,本章主要介绍一些著名的链接分析方法。本节为大家介绍随机游走模型(Random Surfer Model)。”
语料获取装置通过微博、博客等第三方平台提供的应用程序接口(API),便可获取到对应于用户A’至用户E’的语料数据。
本领域技术人员应能理解上述获取对应于所述多个用户的语料数据的方式仅为举例,其他现有的或今后可能出现的获取对应于所述多个用户的语料数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
信息确定装置根据所述多个用户的语料数据,确定所述多个用户的输入结果信息。在此,所述输入结果信息用于描述用户的语言特征信息、输入特征信息,以及辅助输入特征信息。在此,信息确定装置确定所述多个用户的输入结果信息的方式与结果确定装置12确定所述输入训练结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
聚类处理装置根据所述多个用户的输入结果信息,对所述多个用户进行聚类处理,如采用k-means、ISODATA、链状方法等非监督学习方法,以获得所述一个或多个用户聚类以及与所述用户聚类相对应的类输入结果信息。在此,所述用户聚类包括但不限于如:1)商务公文型;2)游戏娱乐型;3)专业技术型。本领域技术人员应能理解上述用户聚类仅为举例,其他现有的或今后可能出现的用户聚类如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,聚类处理装置可根据信息确定装置确定的用户A’至用户E’的输入结果信息,如从输入特征信息、语言特征信息等方面对用户A’至用户E’进行聚类,如假设用户A’、用户B’和用户D’在输入特征信息上均具有习惯简拼、对于长句喜欢输入单个词、按键错误频率低于0.01等特点,则聚类处理装置将用户A’、用户B’和用户D’归为一类,且聚类处理装置根据用户A’、用户B’和用户D’对应的语言特征信息,判断用户A’和用户B’对应的语言特征信息如词典规模、词与词的关联信息、专业术语等均属于自然语言处理领域,用户D’对应的语言特征信息属于搜索引擎领域,则聚类处理装置确定用户A’、用户B’和用户D’对应的用户聚类为专业技术型如technology-cluster,相应地,聚类处理装置通过将用户A’、用户B’和用户D’对应的语言特征信息进行合并、提取相同语言特征信息等方式,得到与专业技术型用户聚类相对应的类输入结果信息technology-info,包括参数如:1)词典规模,即专业技术型用户类别所对应的词库信息,如词条数量等;2)自然语言处理及搜索引擎专业术语包括“词袋”、“语言模型”、“搜索引擎”、“链接”等;3)词与词的关联信息,如“搜索”与“引擎”关联,再如“随机”与“游走”关联等;4)习惯简拼;5)对于长句喜欢输入单个词;6)按键错误频率低。类似地,聚类处理装置可确定用户C’和用户D’属于游戏娱乐型如entertainment-cluster,以及与该用户聚类游戏娱乐型相对应的类输入结果信息如entertainment-info。
更优选地,网络设备1还包括统计模型建立装置(未示出),具体地,统计模型建立装置根据所述用户聚类所对应的所述类输入结果信息,建立或更新所述统计输入模型,其中,所述统计输入模型包括在多个所述用户聚类中存在的所述类输入结果信息。例如,接上例,统计模型建立装置根据聚类处理装置得到的用户聚类technology-cluster和用户聚类entertainment-cluster分别所对应的所述类输入结果信息technology-info和entertainment-info,建立或更新所述统计输入模型,如将类输入结果信息technology-info和entertainment-info各自包括的参数中的相同参数作为所述统计输入模型的模型参数,其中,所述统计输入模型包括在多个所述用户聚类中存在的所述类输入结果信息。
图3示出根据本发明另一个方面的网络设备和用户设备配合实现用于确定目标用户所对应的输入模型的方法流程图。
具体地,在步骤S1中,用户设备2获取目标用户所选择的训练语料数据;在步骤S2中,用户设备2向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;相应地,网络设备1获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;在步骤S3中,网络设备1根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;在步骤S4中,网络设备1将所述输入训练结果发送至所述用户设备2;相应地,用户设备2接收所述网络设备1基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;在步骤S5中,用户设备2根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。
在此,所述网络设备1包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现;或者由用户设备实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
在此,所述用户设备2可以是任何一种可与用户通过键盘、鼠标、触摸板、触摸屏、或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑PPC或平板电脑等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。
本领域技术人员应能理解上述网络设备1或用户设备2仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,网络设备1及用户设备2均包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。
具体地,在步骤S1中,用户设备2通过调用用户设备自身提供的提供训练预料数据的应用程序接口(API),获取目标用户所选择的训练语料数据;或者,通过第三方应用平台如输入法客户端Input-methodl-client提供的应用程序接口(API),获取目标用户所选择的训练语料数据;或者,通过JSP、ASP等动态网页技术,获取目标用户所选择的训练语料数据。在此,所述训练语料数据反映了所述目标用户在文本输入过程中经常输入的文本信息(如文字、读音等)、输入行为信息等(如只输入文字首字母、输入长度较短、喜欢用缩写、读音、按键错误不时常发生、喜欢选用表情符号代替文本等),其包括但不限于以下至少任一项:1)所述目标用户的历史输入记录;2)所述目标用户的曾撰写的文本;3)其他反映所述目标用户输入行为的文本集合,如某领域的术语列表。本领域技术人员应能理解上述训练语料数据仅为举例,其他现有的或今后可能出现的训练语料数据如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,假设用户A通过其智能手机iphone中已安装的第三方应用平台如输入法客户端提供的应用程序接口(API),选择其之前撰写的文本如文章、发表的帖子等,以及其常用的某领域如数学、通信、物理等的资料,以将该等文本上传至对应的网络设备2,则在步骤S1中,用户设备2通过该第三方应用平台如输入法客户端提供的应用程序接口(API),便获取到用户A所选择的文本,以将其作为所述训练语料数据。在此,本发明实现了用户可以选择特定的训练语料数据,不仅具有更高的训练效率(如不需要等到用户有那么多输入记录),还可以针对性地得到用户所希望的输入法习惯(例如某个领域的新用户可以将该领域的典型句段作为训练语料),从而进一步地提高了输入效率的有益效果。
优选地,在步骤S1中,用户设备2还可根据所述目标用户对其历史输入相关信息的选择操作,获取所述训练语料数据。在此,所述历史输入相关信息包括但不限于以下至少任一项:1)所述目标用户的历史输入记录;2)所述目标用户的曾撰写的文本;3)其他反映所述目标用户输入行为的文本集合,如某领域的术语列表。例如,接上例,用户A通过其智能手机iphone中已安装的第三方应用平台如输入法客户端如Input-method1-client提供的应用程序接口(API),选择其保存于本地的之前撰写和/或发表的文章如《载波聚合(Carrier Aggregation)介绍》、《LTE中的PRACH》等,以及输入法记录的该用户A的历史输入记录如输入的词语、输入习惯等,然后点击“确定”按钮,则在步骤S1中,用户设备2通过JSP、ASP等动态网页技术,便获取到用户A对其历史输入相关信息的选择操作,进而在步骤S1中,用户设备2通过该第三方应用平台如输入法客户端Input-method1-client提供的应用程序接口(API),便获取到用户A所选择的历史输入相关信息,以将其作为所述训练语料数据。
本领域技术人员应能理解上述获取目标用户所选择的训练语料数据的方式仅为举例,其他现有的或今后可能出现的获取目标用户所选择的训练语料数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,用户设备2通过约定的通信方式,如http或https等通信协议,向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据。例如,接上例,在步骤S2中,用户设备2向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括用户A选择的其保存于本地的之前撰写和/或发表的文章如《载波聚合(Carrier Aggregation)介绍》、《LTE中的PRACH》等,以及该用户A的历史输入记录如输入的词语、输入习惯等训练语料数据。
相应地,网络设备1获取目标用户通过用户设备2提交的语料训练请求,如通过网络设备1提供的应用程序接口(API),或者,通过约定的通信方式,如http或https等通信协议,接收用户设备2发送的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据。
在步骤S3中,网络设备1根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应。在此,所述输入训练结果用于描述所述目标用户的语言特征信息、输入特征信息,以及辅助输入特征信息,反映了该目标用户积久养成的输入方式等。其中,所述语言特征信息包括但不限于以下至少任一项参数信息:1)孤立的词频,即单个词出现的频率;2)词与词的关联信息,即给定上文时该词的词频,反映了一个词与另一个词共现的频率,如对于词语“监听”,其上文词语如为“秘密”时所对应的词频,再如,对于词语“舰艇”,其上文词语如为“驾驶”时所对应的词频;3)对于多音词,该多音词对应不同读音的频率,如对于词语“澄清”,其读音包括:①“Chéng qīng”:1.形容水清澈、明亮2.弄清事情的真相;②“Dèng qīng”:使液体中的杂质沉淀。其中,所述输入特征信息包括但不限于以下至少任一项参数信息:1)用户习惯输入全拼还是简拼;2)输入长度,如通常输入整句还是单个词、字;3)是否习惯性读音错误,以及错误详情如何;4)是否习惯按键错误,以及错误详情如何。其中,所述辅助输入特征信息包括但不限于以下至少任一项参数信息:1)中文兼用英文;2)是否习惯表情符号;3)特殊领域词语,如古诗词、成语俗语、常见地名、流行游戏、专业词汇等;4)人名等。本领域技术人员应能理解上述语言特征信息、输入特征信息和辅助输入特征信息仅为举例,其他现有的或今后可能出现的语言特征信息或输入特征信息或辅助输入特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。在此,在步骤S3中,网络设备1确定所述输入训练结果的方式包括但不限于以下至少任一项:
1)根据所述训练语料数据,通过预定语言模型,诸如适用于中文拼音输入法的基于统计的N-gram模型,适用于日文输入法的基于统计的N-POS模型等,确定所述目标用户所对应的初始语言特征信息,以将该初始语言特征信息作为所述输入训练结果。例如,假设在步骤S2中,网络设备1获取到的所述训练语料数据包括如下训练语料数据I至IV:
I文章《载波聚合(Carrier Aggregation)介绍》中的文本内容:
“为了满足LTE-A下行峰速1Gbps,上行峰速500Mbps的要求,需要提供最大100MHz的传输带宽,但由于这么大带宽的连续频谱的稀缺,LTE-A提出了载波聚合的解决方案。载波聚合(Carrier Aggregation,CA)是将2个或更多的载波单元(Component Carrier,CC)聚合在一起以支持更大的传输带宽(最大为100MHz)。涉及到的基本概念如下:Primary Cell(PCell):主小区是工作在主频带上的小区。UE在该小区进行初始连接建立过程,或开始连接重建立过程;Secondary Cell(SCell):辅小区是工作在扶贫带上的小区。一旦RRC连接建立,辅小区就可能被配置以提供额外的无线资源(见36.331的3.1节;Serving Cell:处于RRC_CONNECTED态的UE,如果没有配置CA,则只有一个ServingCell,即PCell;如果配置了CA,则Serving Cell集合是由PCell和SCell组成(见36.331的3.1节)。......”
II文章《LTE中的PRACH》中的文本内容:“UE通过上行RACH来达到与LTE系统之间的上行接入和同步。在FDD模式下(以下若未特别指出,均是对FDD模式而言)PRACH的大小为6个RB,每个子帧中,至多有一个PRACH(36.211,Section5.7.1)。TDD模式下,允许一个子帧中存在多个频分的PRACH。PRACH中的前导序列,包含长度为的循环前缀(CP)和长度为的序列。为了适应不同的小区大小,LTEFDD中的PRACH定义了四种类型,......”
III用户A的历史输入记录,以汉语拼音输入法为例:
i)全拼输入次数占总输入次数的99%,如输入“计算机”时输入“jisuanji”、如输入“载波聚合”输入“zaibojuhe”等;
ii)对于长句,输入整句、多个词语次数占总输入次数的90%,如输入“主小区是工作在主频带的小区”输入“zhuxiaoqushigongzuozai”、“zhupindai”、“shangde”、“xiaoqu”;
iii)专业术语全部采用缩写,如“LTE”、“PDCCH”、“TDD”等;
iv)读音、按键错误不时常发生;
v)喜欢选用表情符号代替文本等,如输入“哈哈”,喜欢用表情符号“∧_∧”或“O(∩_∩)O哈哈~”代替,再如,输入“不高兴”,喜欢用表情符号“(∨_∨)”代替等;
IV收集的古诗词及解析:
i)秋思·洛阳城里见秋风 张籍
洛阳城里见秋风,欲作家书意万重
复恐匆匆说不尽,行人临发又开封
赏析:这是乡愁诗,通过叙述写信前后的心情,表达乡愁之深。第一句交代“作家书”的原因(“见秋风”),以下三句是描写作书前、作书后的心理活动。作书前是“意万重”,作书后是“复恐说不尽”。“临发开封”这个细节把“复恐说不尽”的心态表现得栩栩如生,意形相融。写的是人人意中常有之事,却非人人所能道出。作客他乡,见秋风而思故里,托便人捎信。临走时怕遗漏了什么,又连忙打开看了几遍。事本子平,而一经入诗,特别是一经张籍这样的高手入诗,便臻妙境。
ii)池上咏柳 白居易
青莎台上起书楼,绿藻潭中系钓舟。
日晚爱行深竹里,月明多上小桥头。
暂尝新酒还成醉,亦出中门便当游。
一部清商聊送老,白须萧飒管弦秋。
赏析:“多上”:一作多在。“日晚爱行深竹里,月明多在小桥头”这两句是说,晚间竹林里清幽雅静,我爱在那里漫步游赏;月照林上,竹影婆娑,月光最明的地方,是在那空旷的小桥头。竹间漫步,桥头赏月,均极惬意,见诗人官闲优游之状。“一部清商①聊②送老,白发萧飒③管弦秋”,①清商:此指清商曲,乐府歌曲名。声调比较清越,故名。②聊:姑且。③萧飒:萧条冷落。七律《池上闲咏》,是白居易任太子宾客分司东都洛阳时所作。这两句是说,听一部声调清越的乐曲,姑且当作老年人打发时光的一种乐趣;但是,苍苍白发,萧条冷落的晚年,不是管弦的力量能够扭转的。这时白居易六十二岁,向居闲官,闲适恬静,但恬静中,似有一种“萧飒”般的寂寥之感,情绪消沉,乐中含怨,细细吟咏,韵味悠长。
则在步骤S3中,网络设备1根据训练语料数据I至IV,通过预定语言模型,如适用于中文拼音输入法的基于统计的N-gram模型,对训练语料数据I至IV对应的文本进行切词处理,并对切词后获得的词语进行统计处理,获得训练语料数据I至IV中所有词语对应的词频,并统计词语的共现信息如“载波”与“聚合”共现的频率等,从而获得所述目标用户所对应的初始语言特征信息original-language-features-A,包括如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”等,则在步骤S3中,网络设备1可将该初始语言特征信息original-language-features-A作为所述输入训练结果。
2)对所述训练语料数据中包含的所述目标用户的用户输入记录(如输入长度、是否缩写、读音、按键错误等))进行统计处理,以获得所述目标用户的初始输入特征信息,并将该初始输入特征信息作为所述输入训练结果。例如,接上例,在步骤S3中,网络设备1根据训练语料数据I至IV,对所述训练语料数据中包含的所述目标用户的用户输入记录如训练语料数据III中包含的所述目标用户的用户输入记录进行统计处理,从而获得所述目标用户的初始输入特征信息original-input-features-A,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生;则在步骤S3中,网络设备1可将该初始输入特征信息original-input-features-A作为所述输入训练结果。
3)结合所述目标用户所属的用户类别对应的类输入结果信息,对前述初始语言特征信息和/或初始输入特征信息进行调整处理,以获得所述输入训练结果。在此,所述类输入结果信息用于描述某类别用户总体的语言特征信息、输入特征信息,以及辅助输入特征信息,与所述输入训练结果具有相同或相似的参数信息。例如,假设与用户A属于通信领域专业技术型用户类别communication-user-class,而通信领域专业技术型用户类别所对应的类输入结果信息communication-info包括:a)词典规模,即技术型用户类别所对应的词库信息,如词条数量等;b)通信领域专业术语包括“3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等,则在步骤S3中,网络设备1可根据该类输入结果信息communication-info,对前述初始语言特征信息和/或初始输入特征信息进行调整处理,如将该类输入结果信息communication-info加入到前述初始语言特征信息和/或初始输入特征信息中,即加入到用户A对应的初始语言特征信息original-language-features-A和/或初始输入特征信息original-input-features-A中,以获得所述输入训练结果如training-results-A,包括:I)初始语言特征信息,如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、等;2)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;Ⅱ)初始输入特征信息,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生。
4)在前述初始语言特征信息和/或初始输入特征信息中加入所述目标用户的参考用户如与该参考用户属于同类型用户的其他用户的辅助输入特征信息,以获得所述输入训练结果。例如,假设与用户A属于同类型用户的用户B对应的参考输入结果信息reference-B包括:a’)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;b’)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;c’)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次,则在步骤S3中,网络设备1可将用户B对应的参考输入结果信息加入到前述初始语言特征信息和/或初始输入特征信息中,即加入到用户A对应的初始语言特征信息original-language-features-A和/或初始输入特征信息original-input-features-A中,以获得所述输入训练结果。
本领域技术人员应能理解上述确定与所述语料训练请求相对应的输入训练结果的方式仅为举例,其他现有的或今后可能出现的确定与所述语料训练请求相对应的输入训练结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S4中,网络设备1通过约定的通信方式,如http或https等通信协议,将所述输入训练结果发送至所述用户设备2。
相应地,用户设备2通过约定的通信方式,如http或https等通信协议,接收所述网络设备1基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应。
在步骤S5中,用户设备2根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。在此,所述输入模型是指自然语言处理中根据用户的输入(如中英文输入、按键错误输入、符号夹杂输入等),计算与该输入相对应的可能的候选结果,以及候选结果对应的概率信息的数学模型,包括用于描述词语间搭配的概率信息、词频、编码与词条映射频率的调整信息等自然语言统计特征的语言模型,以及用于描述与用户输入特征相对应的模型部分。例如,假设对于用户A,在步骤S4中,用户设备2接收到的所述输入训练结果training-results-A包括:I)初始语言特征信息original-language-features-A’,如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、等;2)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;Ⅱ)初始输入特征信息original-input-features-A’,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生,则在步骤S5中,用户设备2根据该输入训练结果包括的各项参数信息,建立目标用户A所对应的输入模型input-model-A,并且,当目标用户A通过用户设备提交新的语料训练请求,在步骤S4中,用户设备2接收到新的输入训练结果时,在步骤S5中,用户设备2还可根据该新的输入训练结果,对之前建立的所述输入模型进行更新,比如,按一定方式进行更新,如立即更新、按一定周期进行更新等。在此,本发明实现了使更新后的所述输入模型更进一步地满足目标用户A所希望的输入法习惯的需求的有益效果。
优选地,在步骤S5中,用户设备2还可首先通过诸如ASP、JSP等动态网页技术,获取所述目标用户对所述输入训练结果的选择处理,以获得所选择的输入训练结果;然后,根据所选择的输入训练结果,建立或更新所述目标用户所对应的输入模型。具体地,在步骤S5中,用户设备2还可首先通过约定的通信方式,如http或https等通信协议,将所述输入训练结果提供给所述目标用户;然后,再通过诸如ASP、JSP等动态网页技术,获取所述目标用户对所述输入训练结果的选择处理,以获得所选择的输入训练结果;接着,根据所选择的输入训练结果,建立或更新所述目标用户所对应的输入模型。例如,在步骤S5中,用户设备2通过约定的通信方式,如http或https等通信协议,将其在步骤S4中接收到的所述输入训练结果training-results-A,提供给用户A,假设用户A选择了输入训练结果training-results-A所在窗口中的关于是否运用训练结果training-results-A建立或更新所述目标用户所对应的输入模型的“确认”按钮,则在步骤S5中,用户设备2通过诸如ASP、JSP等动态网页技术,便获取到用户A对所述输入训练结果training-results-A的选择处理;接着,在步骤S5中,用户设备2根据该输入训练结果training-results-A,建立或更新用户A所对应的输入模型input-model-A,如运用输入训练结果training-results-A代替原有输入训练结果如original-training-results-A,以建立或更新用户A所对应的输入模型input-model-A。
本领域技术人员应能理解上述建立或更新所述目标用户所对应的输入模型的方式仅为举例,其他现有的或今后可能出现的建立或更新所述目标用户所对应的输入模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
网络设备1和用户设备2的各个步骤之间是持续不断工作的。具体地,在步骤S1中,用户设备2获取目标用户所选择的训练语料数据;在步骤S2中,用户设备2持续向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;相应地,网络设备1持续获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;在步骤S3中,网络设备1持续根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;在步骤S4中,网络设备1持续将所述输入训练结果发送至所述用户设备2;相应地,用户设备2持续接收所述网络设备1基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;在步骤S5中,用户设备2持续根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。在此,本领域技术人员应能理解“持续”是指网络设备1和用户设备2的各个步骤之间分别不断地进行训练语料数据的获取与发送、输入训练结果的确定与发送、输入模型的建立或更新,直至用户设备2在较长时间内停止训练语料数据的获取。
在一个优选实施例中(参考图3),其中,包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S7(未示出)。以下参考图3对该优选实施例进行描述:具体地,在步骤S1中,用户设备2获取目标用户所选择的训练语料数据;在步骤S2中,用户设备2向对应的网络设备1发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;相应地,网络设备1获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;在步骤S3中,网络设备1根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;在步骤S7中,网络设备1根据所述训练语料数据,确定所述输入训练结果所对应的权重信息;在步骤S4中,网络设备1将所述输入训练结果及所述权重信息发送至所述用户设备2;相应地,用户设备2接收所述网络设备1基于所述语料训练请求所发送的输入训练结果及其对应的权重信息,其中,所述输入训练结果与所述训练语料数据相对应;在步骤S5中,用户设备2根据所述输入训练结果,结合所述权重信息,建立或更新所述输入模型。在此,步骤S1、步骤S2和步骤S3分别与图3所示对应步骤相同或相似,故在此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S7中,网络设备1根据所述训练语料数据,确定所述输入训练结果所对应的权重信息;其中,所述权重信息基于以下任一项规则来确定;
-根据所述训练语料数据的数据数量信息,确定所述权重信息;
-根据所述训练语料数据的数据质量信息,确定所述权重信息。
例如,当根据所述训练语料数据的数据数量信息,确定所述权重信息时,假设在步骤S2中,网络设备1获取到的所述语料训练请求中包括的用户A选择的所述训练语料数据包括前述训练语料数据I至IV,其中,训练语料数据I和Ⅱ体现所述输入训练结果training-results-A中关于①通信领域专业术语和②词与词的关联信息方面的数据,训练语料数据III中包含的5条文本中有4条体现所述输入训练结果中关于③初始输入特征信息方面的数据,有1条体现所述输入训练结果中关于④习惯运用表情符号方面的数据,训练语料数据IV中包含的两个文本体现所述输入训练结果中关于⑤古诗词信息及⑥特殊人名方面的数据,假设参数每多一条训练语料数据,则其对应的权重就多0.2,且参数权重数值最高为1,假设每一参数对应的初始权重均相等,如为0.5,则在步骤S7中,网络设备1训练语料数据I至IV的数据数量信息,可确定所述输入训练结果中各参数对应的权重信息,则在步骤S7中,网络设备1确定输入训练结果training-results-A中各参数:①通信领域专业术语、②词与词的关联信息、③初始输入特征信息、④习惯运用表情符号、⑤古诗词信息及⑥特殊人名方面的数据所对应的权重信息分别0.7、0.7、1、0.5、0.7、0.7。
再如,当根据所述训练语料数据的数据质量信息,确定所述权重信息时,在此,所述数据质量信息表示所述训练语料数据是否有编辑错误造成的噪音,或者,属于错误上传的垃圾数据等。具体地,在步骤S7中,网络设备1首先根据预定语言模型如适用于中文拼音输入法的基于统计的N-gram模型,适用于日文输入法的基于统计的N-POS模型等,通过自然语言处理方法,确定所述训练语料数据的数据质量信息;然后,再根据所述训练语料数据的数据质量信息,确定所述权重信息。例如,接上例,假设在步骤S7中,网络设备1确定前述训练语料数据I至IV中训练语料数据IV属于错误上传的垃圾数据,训练语料数据I中具有编辑错误如“辅小区是工作在扶贫带上的小区”中的“扶贫”应为“辅频”,假设每一参数对应的初始权重均相等,如为0.5,每出现一处错误,权重降低0.1,但属于垃圾数据时,对应的权重为0,则在步骤S7中,网络设备1确定输入训练结果training-results-A中各参数:①通信领域专业术语、②词与词的关联信息、③初始输入特征信息、④习惯运用表情符号、⑤古诗词信息及⑥特殊人名方面的数据所对应的权重信息分别0.4、0.5、0.5、0.5、0、0。
本领域技术人员应能理解,在步骤S7中,网络设备1还可以根据上述权重信息判断规则的组合,来确定所述输入训练结果所对应的权重信息。
本领域技术人员应能理解上述确定所述输入训练结果所对应的权重信息的方式仅为举例,其他现有的或今后可能出现的确定所述输入训练结果所对应的权重信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S4中,网络设备1通过约定的通信方式,如http或https等通信协议,将所述输入训练结果及所述权重信息发送至所述用户设备2。
相应地,用户设备2通过约定的通信方式,如http或https等通信协议,接收所述网络设备1基于所述语料训练请求所发送的输入训练结果及其对应的权重信息,其中,所述输入训练结果与所述训练语料数据相对应。
在步骤S5中,用户设备2根据所述输入训练结果,结合所述权重信息,建立或更新所述输入模型。例如,假设在步骤S7中,网络设备1确定的输入训练结果training-results-A中各参数:①通信领域专业术语、②词与词的关联信息、③初始输入特征信息、④习惯运用表情符号、⑤古诗词信息及⑥特殊人名方面的数据所对应的权重信息分别0.7、0.7、1、0.5、0.7、0.7,则在步骤S5中,用户设备2根据该输入训练结果training-results-A,建立或更新用户A所对应的输入模型input-model-A,如结合所述权重信息,将输入训练结果training-results-A叠加到用户A的智能手机iphone中正运用的第三方应用平台如输入法客户端如Input-method1-client对应的原有输入训练结果如original-training-results-A中,如通过以下叠加公式(3),将输入训练结果training-results-A各参数与其对应的权重信息的乘积与原有输入训练结果如original-training-results-A中对应的参数进行叠加:
α*T′+(1-α)*T  (3)
其中,T’表示输入训练结果training-results-A各参数,α表示T’参数对应的权重信息,且0<α<1,T表示原有输入训练结果如original-training-results-A中与输入训练结果training-results-A的参数T’相对应的参数,则在步骤S5中,用户设备2通过计算上述公式(3)便可以得到更新后的所述输入训练结果new-training-results-A;接着,在步骤S5中,用户设备2根据更新后的所述输入训练结果new-training-results-A,更新用户A所对应的输入模型input-model-A。
优选地,用户设备2还包括步骤S8(未示出)和步骤S9(未示出)。具体地,在步骤S8中,用户设备2根据所述输入模型,确定与所述目标用户的输入信息相对应的候选项信息;在步骤S9中,用户设备2将所述候选项信息提供给所述目标用户。
具体地,在步骤S8中,用户设备2根据所述输入模型,确定与所述目标用户的输入信息相对应的候选项信息。例如,假设用户A在其智能手机iphone上建立或更新输入模型input-model-A之后,当用户A需要输入文本时,例如假设用户A输入信息“jianting”,假设输入模型input-model-A中对应的参数信息表明“监听”的词频比“舰艇”的词频高,且用户A对应的输入特征信息为全拼单个词输、不常读错或输错,则候选项确定装置输入信息“jianting”对应的候选项信息如“舰艇、监听、坚挺、兼听”等中“监听”对应的排序高于其他候选项“舰艇、坚挺、兼听”;再如,接上例,假设输入信息“jianting”对应的上文为“秘密”,则在步骤S8中,用户设备2确定“监听”对应的排序高于其他候选项“舰艇、坚挺、兼听”;还如,还接上例,假设输入信息“jianting”对应的上文为“驾驶”,则在步骤S8中,用户设备2确定“舰艇”对应的排序高于其他候选项“监听、坚挺、兼听”。
本领域技术人员应能理解上述确定与所述目标用户的输入信息相对应的候选项信息的方式仅为举例,其他现有的或今后可能出现的确定与所述目标用户的输入信息相对应的候选项信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S9中,用户设备2通过约定的通信方式,如http或https等通信协议,将所述候选项信息提供给所述目标用户,供其浏览选择。
图4示出根据本发明一个优选实施例的网络设备用于确定目标用户所对应的输入模型的方法流程图。
其中,网络设备1包括步骤S2’、步骤S3’、步骤S4’和步骤S6’(未示出),其中,步骤S3’包括步骤S31’和步骤S32’。具体地,在步骤S2’中,网络设备1获取目标用户通过用户设备2提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;在步骤S6’中,网络设备1获取对应于多个用户的统计输入模型;在步骤S31’中,网络设备1根据所述训练语料数据,确定所述目标用户所对应的初始训练结果;在步骤S32’中,网络设备1根据所述统计输入模型,调整所述初始训练结果,以获得所述输入训练结果;在步骤S4’中,网络设备1将所述输入训练结果发送至用户设备2。在此,步骤S2’和步骤S4’分别与图3所示对应步骤相同或相似,故在此处不再赘述,并通过引用的方式包含于此。
具体地,在步骤S6’中,网络设备1通过诸如提供统计输入模型的第三方设备的应用程序接口(API),获取对应于多个用户的统计输入模型。在此,所述统计输入模型包括自然语言处理中的语言模型,包含词语间搭配的概率信息,其模型参数其反映全体用户或属于相同用户类别的用户的语言特征信息、输入特征信息,以及辅助输入特征信息等。例如,用户A在其的智能手机iphone中第一次安装第三方应用平台如输入法客户端如Input-method1-client时,则在步骤S6’中,网络设备1通过第三方应用平台如输入法客户端如Input-method1-client的应用程序接口(API),便可获取到输入法Input-method1,即获取到所述统计输入模型,其对应于多个用户。
本领域技术人员应能理解上述获取对应于多个用户的统计输入模型的方式仅为举例,其他现有的或今后可能出现的获取对应于多个用户的统计输入模型的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S31’中,网络设备1根据所述训练语料数据,确定所述目标用户所对应的初始训练结果。在此,所述初始训练结果用于描述所述目标用户的初始语言特征信息、初始输入特征信息,反映了该目标用户初始的输入方式等信息。其中,所述初始语言特征信息包括但不限于以下至少任一项参数信息:1)孤立的词频,即单个词出现的频率;2)词与词的关联信息,即给定上文时该词的词频,反映了一个词与另一个词共现的频率,如对于词语“监听”,其上文词语如为“秘密”时所对应的词频,再如,对于词语“舰艇”,其上文词语如为“驾驶”时所对应的词频;3)对于多音词,该多音词对应不同读音的频率,如对于词语“澄清”,其读音包括:①“Chéng qīng”:1.形容水清澈、明亮2.弄清事情的真相;②“Dèng qīng”:使液体中的杂质沉淀。其中,所述初始输入特征信息包括但不限于以下至少任一项参数信息:1)用户习惯输入全拼还是简拼;2)输入长度,如通常输入整句还是单个词、字;3)是否习惯性读音错误,以及错误详情如何;4)是否习惯按键错误,以及错误详情如何。本领域技术人员应能理解上述初始语言特征信息和初始输入特征信息仅为举例,其他现有的或今后可能出现的初始语言特征信息或初始输入特征信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,在步骤S31’中,网络设备1可首先根据所述训练语料数据,通过预定语言模型,诸如适用于中文拼音输入法的基于统计的N-gram模型,适用于日文输入法的基于统计的N-POS模型等,确定所述目标用户所对应的初始语言特征信息。例如,在步骤S31’中,网络设备1根据前述训练语料数据I至IV,通过预定语言模型,如适用于中文拼音输入法的基于统计的N-gram模型,对训练语料数据I至IV对应的文本进行切词处理,并对切词后获得的词语进行统计处理,获得训练语料数据I至IV中所有词语对应的词频,并统计词语的共现信息如“载波”与“聚合”共现的频率等,从而获得所述目标用户所对应的初始语言特征信息original-language-features-A,包括如:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”等。
然后,在步骤S31’中,网络设备1对所述训练语料数据中包含的所述目标用户的用户输入记录(如输入长度、是否缩写、读音、按键错误等))进行统计处理,以获得所述目标用户的初始输入特征信息。例如,在步骤S31’中,网络设备1根据训练语料数据I至IV,对所述训练语料数据中包含的所述目标用户的用户输入记录如训练语料数据III中包含的所述目标用户的用户输入记录进行统计处理,从而获得所述目标用户的初始输入特征信息original-input-features-A,如i)习惯输入全拼;ii)对于长句,习惯输入整句、多个词语;iii)习惯用缩写;iv)读音、按键错误不时常发生。
接着,在步骤S31’中,网络设备1可将所述初始语言特征信息及所述初始输入特征信息作为初始训练结果。例如,接上例,在步骤S31’中,网络设备1将初始语言特征信息original-language-features-A及初始输入特征信息original-input-features-A作为初始训练结果。
本领域技术人员应能理解,在具体实施例中,步骤S6’与步骤S31’可以是并行的处理,也可以串行的处理。
在步骤S32’中,网络设备1根据所述统计输入模型,调整所述初始训练结果,以获得所述输入训练结果。在此,在步骤S32’中,网络设备1调整所述初始训练结果以获得所述输入训练结果的方式包括但不限于以下至少任一项:
1)根据所述目标用户所属的用户类别对应的统计模型的模型参数,如该用户类别对应的类输入结果信息,对所述初始训练结果进行调整处理,以获得所述输入训练结果,如在所述初始训练结果中加入所述类输入结果信息。例如,假设与用户A属于通信领域专业技术型用户类别communication-user-class,而通信领域专业技术型用户类别所对应的类输入结果信息如communication-info包括:a)词典规模,即技术型用户类别所对应的词库信息,如词条数量等;b)通信领域专业术语包括“3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等,则在步骤S32’中,网络设备1将该类输入结果信息communication-info加入到其在步骤S31’中确定的所述初始输入结果中,即加入到用户A对应的初始语言特征信息original-language-features-A和初始输入特征信息original-input-features-A中,以获得所述输入训练结果,包括:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”、3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”等;2)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;6)习惯输入全拼;7)对于长句,习惯输入整句、多个词语;8)习惯用缩写;9)读音、按键错误不时常发生。
2)根据所述统计输入模型,在所述初始训练结果中加入所述统计输入模型对应的属于所述目标用户的参考用户如与该目标用户属于相同用户类别的其他用户的辅助输入特征信息,以获得所述输入训练结果。例如,假设与用户A属于相同用户类别的用户B对应的参考输入结果信息reference-B包括:b1)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;b2)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;b3)对于多音词,如对于词语“澄清”,输入读音为“Chéngqīng”频次高于输入读音为“Dèng qīng”的频次,则在步骤S32’中,网络设备1可将用户B对应的参考输入结果信息reference-B加入到所述初始训练结果中,即加入到用户A对应的初始语言特征信息language-features-A和初始输入特征信息input-features-A中,以获得所述输入训练结果,包括:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;6)习惯输入全拼或简拼;7)对于长句,习惯输入整句、多个词语;8)习惯用缩写;9)读音、按键错误不时常发生;10)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次。
本领域技术人员应能理解上述调整所述初始训练结果以获得所述输入训练结果的方式仅为举例,其他现有的或今后可能出现的调整所述初始训练结果以获得所述输入训练结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选实施例中(参考图4),其中,步骤S32’包括步骤S321’(未示出)、步骤S322’(未示出)和步骤S323’(未示出)。具体地,在步骤S321’中,网络设备1根据所述初始训练结果,从一个或多个用户聚类中确定所述目标用户所属的用户聚类;在步骤S322’中,网络设备1从所述目标用户所属的用户聚类中确定参考用户;在步骤S323’中,网络设备1根据所述统计输入模型,结合所述参考用户所对应的参考模型信息,调整所述初始训练结果,以获得所述输入训练结果。
具体地,在步骤S321’中,网络设备1首先从用户聚类数据库中获取一个或多个用户聚类;然后,再根据所述初始训练结果,从该一个或多个用户聚类中确定所述目标用户所属的用户聚类,如将所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息相比较,或者计算所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息之间的距离,以确定所述目标用户所属的用户聚类。
例如,假设在步骤S31’中,网络设备1确定用户A的初始训练结果包括参数如1’)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2’)词与词的关联信息,如“载波”与“聚合”关联;3’)习惯运用表情符号;4’)习惯简拼;5’)特殊人名如“张籍”等,而用户聚类数据库中包括的用户聚类为cluster1中包括的相关用户如用户C对应的参考输入结果信息reference-C包括参数:c1)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;c2)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;c3)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次;c4)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c5)词与词的关联信息,如“载波”与“聚合”关联,则在步骤S321’中,网络设备1通过将用户A的初始训练结果包括的参数1’至5’分别与用户C对应的参考输入结果信息reference-C包括的参数c1至c5相比较发现,其中,参数1’与c4、参数2’与参数c5、参数3’与参数c1、参数4’与参数c2分别相同,且相同参数的数量占用户C中总参数数量的80%,大于预定阈值60%,则聚类确定单元确定用户A属于用户C所属的用户聚类cluster1。再如,接上例,假设该用户聚类数据库中还包括的用户聚类为cluster2中包括的相关用户如用户D对应的参考输入结果信息reference-D包括参数:d1)习惯用表情符号;d2)特殊人名如“张籍”、“杜甫”等;d3)对于多音词,如对于词语“澄清”,输入读音为“Chéngqīng”频次高于输入读音为“Dèng qīng”的频次;d4)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;d5)词与词的关联信息,如“载波”与“聚合”关联,则在步骤S321’中,网络设备1通过以下公式(4)计算用户A的初始训练结果包括的参数1’至5’分别与用户D对应的参考输入结果信息reference-D包括的参数d1至d5的距离,来确定用户A与用户D之间的距离:
d = &Sigma; i = 1 n ( x i - y i ) 2 - - - ( 4 )
其中,,n为参数数量,xi表示用尸A的初始训练结果包括的参数,yi表示用户D对应的参考输入结果信息reference-D包括的参数,在此,x1表示参数1’,x2表示参数2’,等等,y1表示参数d1,y2表示参数d2,等等,n=5,则在步骤S321’中,网络设备1根据上述公式(4)得到d=0.093,小于预定阈值如0.5,则聚类确定单元确定用户A还属于用户D所属的用户聚类cluster2。在此,所述用户聚类数据库可位于网络设备1中,也可位于与网络设备1通过网络相连的其他设备中,如服务器。
本领域技术人员应能理解上述计算所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息之间的距离的方式仅为举例,其他现有的或今后可能出现的计算所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息之间的距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,每一用户聚类包含用于表征所述用户聚类的特征的类输入结果信息,其中,在步骤S321’中,网络设备1将所述初始训练结果与所述一个或多个用户聚类所对应的所述类输入结果信息进行比较,以确定所述目标用户所属的用户聚类。在此,所述初始训练结果与表征所述用户聚类的特征的类输入结果信息的关系包括但不限于:1)所述初始训练结果与所述类输入结果信息包含相同的参数信息;2)所述类输入结果信息包括所述初始训练结果;3)所述初始训练结果还可与所述类输入结果信息完全一致。例如,接上例,假设在步骤S31’中,网络设备1从用户聚类数据库中获取到用户聚类communication-user-class及其对应的类输入结果信息communication-info包括参数:a)词典规模,即技术型用户类别所对应的词库信息,如词条数量等;b)通信领域专业术语包括“3G”、“ARP”、“光网络”、“光纤到户”、“TCP/IP协议”、“多协议标记交换MPLS”、“路由器”、“通用分组无线业务GPRS”、“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;c)词与词的关联信息,如“载波”与“聚合”关联,再如“通用分组”与“无线业务”关联等,则在步骤S321’中,网络设备1通过将用户A的初始训练结果包括的参数1’至5’分别与用户聚类communication-user-class对应的类输入结果信息communication-info包括的参数a至c相比较发现,其中,参数1’与参数b、参数2’与参数c分别相同,且相同参数的数量占用户聚类communication-user-class中总参数数量的66.7%,大于预定阈值60%,则在步骤S321’中,网络设备1确定用户A属于用户聚类communication-user-class。
本领域技术人员应能理解上述确定所述目标用户所属的用户聚类的方式仅为举例,其他现有的或今后可能出现的确定所述目标用户所属的用户聚类的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S322’中,网络设备1从所述目标用户所属的用户聚类中确定参考用户,如将所述目标用户所属的用户聚类中包括的所有相关用户作为所述参考用户,或者,将所述目标用户的所述初始训练结果与所述用户聚类中包括的相关用户的相关输入结果信息相比较,当所述相关输入结果信息中参数与所述初始训练结果中的参数相同的参数数量与所述相关输入结果信息的总参数数量的比值大于预定阈值时,将该相关输入结果信息所对应的相关用户作为所述参考用户。例如,对于前述用户C对应的参考输入结果信息reference-C,其参数与用户A的所述初始训练结果中的参数相同的数量占用户C中总参数数量的80%,大于预定阈值60%,则在步骤S322’中,网络设备1确定用户聚类cluster1中的用户C为用户A的参考用户。
在步骤S323’中,网络设备1根据所述统计输入模型,结合所述参考用户所对应的参考模型信息,调整所述初始训练结果,在所述初始训练结果中加入所述统计输入模型对应的属于所述目标用户的参考用户如与该目标用户属于相同用户类别的其他用户的参考输入结果信息,以获得所述输入训练结果。在此,所述参考模型信息用于描述所述参考用户所对应的输入模型的模型参数,与所述输入模型具有相同或相似的模型参数,如语言特征信息、输入特征信息,以及辅助输入特征信息等。例如,假设与用户A属于相同用户类别的用户B对应的参考输入结果信息reference-B包括:b1)习惯用表情符号如“*∧_∧*(嘻嘻表情)”、“>_<(可怜表情)”等;b2)习惯简拼,如输入“jsj”(计算机)、“sms”(说明书)等;b3)对于多音词,如对于词语“澄清”,输入读音为“Chéngqīng”频次高于输入读音为“Dèng qīng”的频次,则在步骤S323’中,网络设备1可将用户B对应的参考输入结果信息reference-B加入到所述初始训练结果中,即加入到用户A对应的初始语言特征信息language-features-A和初始输入特征信息input-features-A中,以获得所述输入训练结果,包括:1)通信领域专业术语,如“载波聚合”、“主小区”、“辅小区”、“LTE”、“PDCCH”、“TDD”等;2)词与词的关联信息,如“载波”与“聚合”关联;3)习惯运用表情符号;4)古诗词信息;5)特殊人名如“张籍”;6)习惯输入全拼或简拼;7)对于长句,习惯输入整句、多个词语;8)习惯用缩写;9)读音、按键错误不时常发生;10)对于多音词,如对于词语“澄清”,输入读音为“Chéng qīng”频次高于输入读音为“Dèng qīng”的频次。
优选地,网络设备1还包括步骤S10’(未示出)、步骤S11’(未示出)和步骤S12’(未示出)。具体地,在步骤S10’中,网络设备1获取对应于所述多个用户的语料数据;在步骤S11’中,网络设备1根据所述多个用户的语料数据,确定所述多个用户的输入结果信息;在步骤S12’中,网络设备1根据所述多个用户的输入结果信息,对所述多个用户进行聚类处理,以获得所述一个或多个用户聚类以及与所述用户聚类相对应的类输入结果信息。
具体地,在步骤S10’中,网络设备1通过诸如微博、博客、QQ空间、贴吧等用户可分享、传播及获取信息的第三方平台提供的应用程序接口(API),获取对应于所述多个用户的语料数据;或者,通过记录用户输入习惯、输入语言等信息并提供该等信息的第三方设备的应用程序接口(API),获取对应于所述多个用户的语料数据。例如,假设用户A’至用户E’分别在其微博、博客等第三方平台中共享了以下信息:
用户A’:《Bag of words model(词袋模型)》
“词袋模型是在自然语言处理和信息检索中的一种简单假设。在这种模型中,文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序。......”
用户B’:《语言模型的基本概念》
“本文介绍一下有关语言模型的基本概念,但是在介绍语言模型之前,先简单回顾一下自然语言处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要是被当前的互联网发展所带动起来的。在互联网上充斥着大量的信息,主要是文字方面的信息,对这些信息的处理离不开自然语言处理的技术。那么究竟什么是自然语言以及自然语言处理呢?......”
用户C’:《奥森公园惊现童话世界》
“今日春分,凌晨一场春雪悄然而至,给平日灰蒙蒙的京城披上漂亮的银装。早晨起来,阳光初露,老笨就近来到奥运森林公园北园,立刻被眼前景象惊呆了。在京生活数十年,从未见过如此美丽景象。这般美景,人间罕见,恐怕只有在童话世界里才有。废话少说,上片啦!”
用户D’:《昙花雪,惹人醉》
“北京的这个春天变化多端。一阵儿漫天的霾,一会儿漫天的沙。
昨天傍晚开始下雨了。夜里转成了雪。
早晨一起,看银装素裹,知道这春天不会让这景色停留,这是冬的告别。
去了颐和园,全是摄影的人......我估计大家是让北京春天的天憋的太久了,就像干部们好长时间没有宴会一样难受。”
用户E’:随机游走模型(Random Surfer Model)
“这就是搜索引擎:核心技术详解》第6章链接分析,本章主要介绍一些著名的链接分析方法。本节为大家介绍随机游走模型(Random Surfer Model)。”
则在步骤S10’中,网络设备1通过微博、博客等第三方平台提供的应用程序接口(API),便可获取到对应于用户A’至用户E’的语料数据。
本领域技术人员应能理解上述获取对应于所述多个用户的语料数据的方式仅为举例,其他现有的或今后可能出现的获取对应于所述多个用户的语料数据的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S11’中,网络设备1根据所述多个用户的语料数据,确定所述多个用户的输入结果信息。在此,所述输入结果信息用于描述用户的语言特征信息、输入特征信息,以及辅助输入特征信息。在此,在步骤S10’中,网络设备1确定所述多个用户的输入结果信息的方式与在步骤S3’中,网络设备1确定所述输入训练结果的方式相同或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。
在步骤S12’中,网络设备1根据所述多个用户的输入结果信息,对所述多个用户进行聚类处理,如采用k-means、ISODATA、链状方法等非监督学习方法,以获得所述一个或多个用户聚类以及与所述用户聚类相对应的类输入结果信息。在此,所述用户聚类包括但不限于如:1)商务公文型;2)游戏娱乐型;3)专业技术型。本领域技术人员应能理解上述用户聚类仅为举例,其他现有的或今后可能出现的用户聚类如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
例如,在步骤S12’中,网络设备1可根据信息确定装置确定的用户A’至用户E’的输入结果信息,如从输入特征信息、语言特征信息等方面对用户A’至用户E’进行聚类,如假设用户A’、用户B’和用户D’在输入特征信息上均具有习惯简拼、对于长句喜欢输入单个词、按键错误频率低于0.01等特点,则在步骤S12’中,网络设备1将用户A’、用户B’和用户D’归为一类,且聚类处理装置根据用户A’、用户B’和用户D’对应的语言特征信息,判断用户A’和用户B’对应的语言特征信息如词典规模、词与词的关联信息、专业术语等均属于自然语言处理领域,用户D’对应的语言特征信息属于搜索引擎领域,则在步骤S12’中,网络设备1确定用户A’、用户B’和用户D’对应的用户聚类为专业技术型如technology-cluster,相应地,在步骤S12’中,网络设备1通过将用户A’、用户B’和用户D’对应的语言特征信息进行合并、提取相同语言特征信息等方式,得到与专业技术型用户聚类相对应的类输入结果信息technology-info,包括参数如:1)词典规模,即专业技术型用户类别所对应的词库信息,如词条数量等;2)自然语言处理及搜索引擎专业术语包括“词袋”、“语言模型”、“搜索引擎”、“链接”等;3)词与词的关联信息,如“搜索”与“引擎”关联,再如“随机”与“游走”关联等;4)习惯简拼;5)对于长句喜欢输入单个词;6)按键错误频率低。类似地,在步骤S12’中,网络设备1可确定用户C’和用户D’属于游戏娱乐型如entertainment-cluster,以及与该用户聚类游戏娱乐型相对应的类输入结果信息如entertainment-info。
更优选地,网络设备1还包括步骤S13’(未示出),具体地,在步骤S13’中,网络设备1根据所述用户聚类所对应的所述类输入结果信息,建立或更新所述统计输入模型,其中,所述统计输入模型包括在多个所述用户聚类中存在的所述类输入结果信息。例如,接上例,在步骤S13’中,网络设备1根据其在步骤S12’中得到的用户聚类technology-cluster和用户聚类entertainment-cluster分别所对应的所述类输入结果信息technology-info和entertainment-info,建立或更新所述统计输入模型,如将类输入结果信息technology-info和entertainment-info各自包括的参数中的相同参数作为所述统计输入模型的模型参数,其中,所述统计输入模型包括在多个所述用户聚类中存在的所述类输入结果信息。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (23)

1.一种在网络设备端用于辅助确定目标用户所对应的输入模型的方法,其中,该方法包括以下步骤:
a获取目标用户通过用户设备提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;
b根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
c将所述输入训练结果发送至所述用户设备。
2.根据权利要求1所述的方法,其中,该方法还包括:
-获取对应于多个用户的统计输入模型;
其中,所述步骤b包括:
-根据所述训练语料数据,确定所述目标用户所对应的初始训练结果;
b1根据所述统计输入模型,调整所述初始训练结果,以获得所述输入训练结果。
3.根据权利要求2所述的方法,其中,所述步骤b1包括:
b11根据所述初始训练结果,从一个或多个用户聚类中确定所述目标用户所属的用户聚类;
-从所述目标用户所属的用户聚类中确定参考用户;
-根据所述统计输入模型,结合所述参考用户所对应的参考模型信息,调整所述初始训练结果,以获得所述输入训练结果。
4.根据权利要求3所述的方法,其中,每一用户聚类包含用于表征所述用户聚类的特征的类输入结果信息,其中,所述步骤b11包括:
-将所述初始训练结果与所述一个或多个用户聚类所对应的所述类输入结果信息进行比较,以确定所述目标用户所属的用户聚类。
5.根据权利要求3或4所述的方法,其中,该方法还包括:
-获取对应于所述多个用户的语料数据;
-根据所述多个用户的语料数据,确定所述多个用户的输入结果信息;
-根据所述多个用户的输入结果信息,对所述多个用户进行聚类处理,以获得所述一个或多个用户聚类以及与所述用户聚类相对应的类输入结果信息。
6.根据权利要求5所述的方法,其中,该方法还包括:
-根据所述用户聚类所对应的所述类输入结果信息,建立或更新所述统计输入模型,其中,所述统计输入模型包括在多个所述用户聚类中存在的所述类输入结果信息。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
-根据所述训练语料数据,确定所述输入训练结果所对应的权重信息;
其中,所述步骤c包括:
-将所述输入训练结果及所述权重信息发送至所述用户设备;
其中,所述权重信息基于以下任一项规则来确定;
-根据所述训练语料数据的数据数量信息,确定所述权重信息;
-根据所述训练语料数据的数据质量信息,确定所述权重信息。
8.一种在用户设备端用于确定目标用户所对应的输入模型的方法,其中,该方法包括以下步骤:
A获取目标用户所选择的训练语料数据;
B向对应的网络设备发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;
C接收所述网络设备基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
D根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。
9.根据权利要求8所述的方法,其中,所述步骤A包括:
-根据所述目标用户对其历史输入相关信息的选择操作,获取所述训练语料数据。
10.根据权利要求8或9所述的方法,其中,所述步骤C包括:
-接收所述网络设备基于所述语料训练请求所发送的输入训练结果及其对应的权重信息,其中,所述输入训练结果与所述训练语料数据相对应;
其中,所述步骤D包括:
-根据所述输入训练结果,结合所述权重信息,建立或更新所述输入模型。
11.根据权利要求8至10中任一项所述的方法,其中,所述步骤D包括:
-获取所述目标用户对所述输入训练结果的选择处理,以获得所选择的输入训练结果;
-根据所选择的输入训练结果,建立或更新所述目标用户所对应的输入模型。
12.一种用于辅助确定目标用户所对应的输入模型的网络设备,其中,该网络设备包括:
请求获取装置,用于获取目标用户通过用户设备提交的语料训练请求,其中,所述语料训练请求包括所述目标用户所选择的训练语料数据;
结果确定装置,用于根据所述训练语料数据,确定与所述语料训练请求相对应的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
结果发送装置,用于将所述输入训练结果发送至所述用户设备。
13.根据权利要求12所述的网络设备,其中,该网络设备还包括:
统计模型获取装置,用于获取对应于多个用户的统计输入模型;
其中,所述结果确定装置包括:
初始结果确定单元,用于根据所述训练语料数据,确定所述目标用户所对应的初始训练结果;
调整单元,用于根据所述统计输入模型,调整所述初始训练结果,以获得所述输入训练结果。
14.根据权利要求13所述的网络设备,其中,所述调整单元包括:
聚类确定单元,用于根据所述初始训练结果,从一个或多个用户聚类中确定所述目标用户所属的用户聚类;
参考确定单元,用于从所述目标用户所属的用户聚类中确定参考用户;
初始调整单元,用于根据所述统计输入模型,结合所述参考用户所对应的参考模型信息,调整所述初始训练结果,以获得所述输入训练结果。
15.根据权利要求14所述的网络设备,其中,每一用户聚类包含用于表征所述用户聚类的特征的类输入结果信息,其中,所述聚类确定单元用于:
-将所述初始训练结果与所述一个或多个用户聚类所对应的所述类输入结果信息进行比较,以确定所述目标用户所属的用户聚类。
16.根据权利要求14或15所述的网络设备,其中,该网络设备还包括:
语料获取装置,用于获取对应于所述多个用户的语料数据;
信息确定装置,用于根据所述多个用户的语料数据,确定所述多个用户的输入结果信息;
聚类处理装置,用于根据所述多个用户的输入结果信息,对所述多个用户进行聚类处理,以获得所述一个或多个用户聚类以及与所述用户聚类相对应的类输入结果信息。
17.根据权利要求16所述的网络设备,其中,该网络设备还包括:
统计模型建立装置,用于根据所述用户聚类所对应的所述类输入结果信息,建立或更新所述统计输入模型,其中,所述统计输入模型包括在多个所述用户聚类中存在的所述类输入结果信息。
18.根据权利要求12至17中任一项所述的网络设备,其中,该网络设备还包括:
权重确定装置,用于根据所述训练语料数据,确定所述输入训练结果所对应的权重信息;
其中,所述结果发送装置用于:
-将所述输入训练结果及所述权重信息发送至所述用户设备;
其中,所述权重信息基于以下任一项规则来确定;
-根据所述训练语料数据的数据数量信息,确定所述权重信息;
-根据所述训练语料数据的数据质量信息,确定所述权重信息。
19.一种用于确定目标用户所对应的输入模型的用户设备,其中,该用户设备包括:
数据获取装置,用于获取目标用户所选择的训练语料数据;
请求发送装置,用于向对应的网络设备发送语料训练请求,其中,所述语料训练请求包括所述训练语料数据;
结果接收装置,用于接收所述网络设备基于所述语料训练请求所发送的输入训练结果,其中,所述输入训练结果与所述训练语料数据相对应;
输入模型建立装置,用于根据所述输入训练结果,建立或更新所述目标用户所对应的输入模型。
20.根据权利要求19所述的用户设备,其中,所述数据获取装置用于:
-根据所述目标用户对其历史输入相关信息的选择操作,获取所述训练语料数据。
21.根据权利要求19或20所述的用户设备,其中,所述结果接收装置用于:
-接收所述网络设备基于所述语料训练请求所发送的输入训练结果及其对应的权重信息,其中,所述输入训练结果与所述训练语料数据相对应;
其中,所述输入模型建立装置用于:
-根据所述输入训练结果,结合所述权重信息,建立或更新所述输入模型。
22.根据权利要求19至21中任一项所述的用户设备,其中,所述输入模型建立装置用于:
-获取所述目标用户对所述输入训练结果的选择处理,以获得所选择的输入训练结果;
-根据所选择的输入训练结果,建立或更新所述目标用户所对应的输入模型。
23.一种用于确定目标用户所对应的输入模型的系统,包括如权利要求12至18中任一项所述的网络设备和如权利要求19至22中任一项所述的用户设备。
CN201310182906.5A 2013-05-16 2013-05-16 用于确定目标用户所对应的输入模型的方法与设备 Active CN104166455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310182906.5A CN104166455B (zh) 2013-05-16 2013-05-16 用于确定目标用户所对应的输入模型的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310182906.5A CN104166455B (zh) 2013-05-16 2013-05-16 用于确定目标用户所对应的输入模型的方法与设备

Publications (2)

Publication Number Publication Date
CN104166455A true CN104166455A (zh) 2014-11-26
CN104166455B CN104166455B (zh) 2018-11-13

Family

ID=51910309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310182906.5A Active CN104166455B (zh) 2013-05-16 2013-05-16 用于确定目标用户所对应的输入模型的方法与设备

Country Status (1)

Country Link
CN (1) CN104166455B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138512A (zh) * 2015-08-12 2015-12-09 小米科技有限责任公司 词组推荐方法及装置
CN106598265A (zh) * 2015-10-15 2017-04-26 阿尔派株式会社 文字输入装置及文字输入装置的候补文字顺序控制方法
CN108304078A (zh) * 2017-01-11 2018-07-20 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN110298031A (zh) * 2019-05-28 2019-10-01 北京百度网讯科技有限公司 一种词典服务系统及模型版本一致性配送方法
CN110472223A (zh) * 2018-05-10 2019-11-19 北京搜狗科技发展有限公司 一种输入配置方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
CN101114298A (zh) * 2007-08-31 2008-01-30 北京搜狗科技发展有限公司 一种获取口语词条的方法、装置以及一种输入法系统
CN102063450A (zh) * 2010-04-16 2011-05-18 百度在线网络技术(北京)有限公司 一种基于网络的供用户进行文字输入的方法与设备
CN102063452A (zh) * 2010-05-31 2011-05-18 百度在线网络技术(北京)有限公司 用于供用户进行文字输入的方法、设备、服务器和系统
CN102272754A (zh) * 2008-11-05 2011-12-07 谷歌公司 定制语言模型
US20120265521A1 (en) * 2005-05-05 2012-10-18 Scott Miller Methods and systems relating to information extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US20120265521A1 (en) * 2005-05-05 2012-10-18 Scott Miller Methods and systems relating to information extraction
CN101114298A (zh) * 2007-08-31 2008-01-30 北京搜狗科技发展有限公司 一种获取口语词条的方法、装置以及一种输入法系统
CN102272754A (zh) * 2008-11-05 2011-12-07 谷歌公司 定制语言模型
CN102063450A (zh) * 2010-04-16 2011-05-18 百度在线网络技术(北京)有限公司 一种基于网络的供用户进行文字输入的方法与设备
CN102063452A (zh) * 2010-05-31 2011-05-18 百度在线网络技术(北京)有限公司 用于供用户进行文字输入的方法、设备、服务器和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138512A (zh) * 2015-08-12 2015-12-09 小米科技有限责任公司 词组推荐方法及装置
CN106598265A (zh) * 2015-10-15 2017-04-26 阿尔派株式会社 文字输入装置及文字输入装置的候补文字顺序控制方法
CN108304078A (zh) * 2017-01-11 2018-07-20 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN108304078B (zh) * 2017-01-11 2024-01-30 北京搜狗科技发展有限公司 一种输入方法、装置及电子设备
CN110472223A (zh) * 2018-05-10 2019-11-19 北京搜狗科技发展有限公司 一种输入配置方法、装置和电子设备
CN110298031A (zh) * 2019-05-28 2019-10-01 北京百度网讯科技有限公司 一种词典服务系统及模型版本一致性配送方法
CN110298031B (zh) * 2019-05-28 2023-07-18 北京百度网讯科技有限公司 一种词典服务系统及模型版本一致性配送方法

Also Published As

Publication number Publication date
CN104166455B (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN105095182B (zh) 一种回复信息推荐方法及装置
US11227342B2 (en) Recommending friends in automated chatting
CN105512228B (zh) 一种基于智能机器人的双向问答数据处理方法和系统
CN105068661A (zh) 基于人工智能的人机交互方法和系统
CN107665708A (zh) 智能语音交互方法及系统
CN103268313A (zh) 一种自然语言的语义解析方法及装置
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
KR20200042927A (ko) 음성 구동 컴퓨팅 인프라에 의해 그래픽 사용자 인터페이스 렌더링 관리
EP4083999A1 (en) Voice recognition method and related product
CN105808695A (zh) 一种获取聊天回复内容的方法及装置
CN104572852B (zh) 资源的推荐方法及装置
CN107239440A (zh) 一种垃圾文本识别方法和装置
CN104166455A (zh) 用于确定目标用户所对应的输入模型的方法与设备
WO2013143252A1 (zh) 一种基于上下文场景的输入候选词提示方法及系统
CN102508554A (zh) 一种通信关联的输入方法、个性语库及系统
RU2711104C2 (ru) Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа
CN109213856A (zh) 一种语义识别方法及系统
CN103546623A (zh) 用于发送语音信息及其文本描述信息的方法、装置与设备
US11615129B2 (en) Electronic message text classification framework selection
CN103631862B (zh) 基于微博的事件特征演化挖掘方法及系统
CN109902187A (zh) 一种特征知识图谱的构建方法及装置、终端设备
CN114328852A (zh) 一种文本处理的方法、相关装置及设备
CN108306813B (zh) 会话消息的处理方法、服务器及客户端
Wallaschek et al. Same same but different? gender politics and (trans-) national value contestation in europe on twitter
WO2023029354A1 (zh) 文本信息提取方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant