CN107562220A - 输入信息的推荐方法、装置、计算机设备及可读介质 - Google Patents

输入信息的推荐方法、装置、计算机设备及可读介质 Download PDF

Info

Publication number
CN107562220A
CN107562220A CN201710695255.8A CN201710695255A CN107562220A CN 107562220 A CN107562220 A CN 107562220A CN 201710695255 A CN201710695255 A CN 201710695255A CN 107562220 A CN107562220 A CN 107562220A
Authority
CN
China
Prior art keywords
word
emerging
probability
occurrence
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710695255.8A
Other languages
English (en)
Inventor
张鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710695255.8A priority Critical patent/CN107562220A/zh
Publication of CN107562220A publication Critical patent/CN107562220A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种输入信息的推荐方法、装置、计算机设备及可读介质。其方法包括:接收用户输入的携带目标新兴词语读音的输入请求;根据预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取输入请求对应的至少一个推荐输入信息;多个新兴词语包括目标新兴词语;向用户显示至少一个推荐输入信息。本发明的技术方案,采用预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取携带目标新兴词语读音的输入请求对应的至少一个推荐输入信息,从而可以保证该目标新兴词语被推荐,进而可以有效地节省用户输入目标新兴词语的操作成本,提高目标新兴词语的输入效率。

Description

输入信息的推荐方法、装置、计算机设备及可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种输入信息的推荐方法、装置、计算机设备及可读介质。
【背景技术】
随着科技的发展,智能设备已经成为人们生活中不可缺少的随身设备。用户可以随时随地通过智能设备收发邮件、浏览新闻、发表评论以及通过智能设备上安装的即时通讯与好友沟通工作或者聊天。
现有技术中,智能设备上安装有信息输入装置如输入法的应用(Application;App),用户向该信息输入装置发送输入请求,然后信息输入装置可以根据输入请求和预存储的语言模型,从语言模型中获取输入请求对应的推荐输入信息,并向用户显示该推荐输入信息。这样,用户可以根据推荐输入信息直接进行信息输入,从而可以减少用户输入信息时的操作步骤,减少信息输入时的操作成本,提高信息输入的效率。但是现有技术中的语言模型是根据现有的语料库生成的,该语言模型中可以包括每个词语以及各词语在语料库中的出现概率,以及该词语与对应的上下文词语一起出现的出现概率。对于一些新兴词语,如某新兴的品牌名称或者最近期比较火的人物等,在语言模型中,不存在这些新兴词语,则用户在通过语音方式或者输入新兴词语读音的方式请求输入该新兴词语或者包括新兴词语的语句时,信息输入装置在根据语言模型获取推荐输入信息时,不会推荐新兴词语,导致用户只能从推荐信息中寻找新兴词语的每一个字,并依此输入,因此,现有的信息输入过程中,对新兴词语的输入操作成本较高,信息输入效率较低。
【发明内容】
本发明提供了一种输入信息的推荐方法、装置、计算机设备及可读介质,用于减少新兴词语的输入操作成本,提高信息输入效率。
本发明提供一种输入信息的推荐方法,所述方法包括:
接收用户输入的携带目标新兴词语读音的输入请求;
根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息;所述多个新兴词语包括所述目标新兴词语;
向用户显示所述至少一个推荐输入信息。
进一步可选地,如上所述的方法中,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息,具体包括:
根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语读音对应的至少一个推荐词语。
进一步可选地,如上所述的方法中,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语读音对应的至少一个推荐词语,具体包括:
从更新的所述语言模型中,获取所述目标新兴词语读音对应的多个备选词语;
根据更新的所述语言模型中存储的所述多个备选词语的出现概率的大小,从所述多个备选词语中获取所述至少一个推荐词语;
进一步地,向用户显示所述至少一个输入信息,具体包括:
根据所述至少一个推荐词语的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐词语。
进一步可选地,如上所述的方法中,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息,具体包括:
根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语的读音和所述输入请求中所述目标新兴词语的至少一个上下文词语的读音共同对应的所述至少一个推荐词组;所述推荐词组中包括所述目标新兴词语读音对应第一推荐词语和对应的所述至少一个上下文词语的读音分别对应的至少一个第二推荐词语。
进一步可选地,如上所述的方法中,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语的读音和所述输入请求中所述目标新兴词语的至少一个上下文词语的读音共同对应的所述至少一个推荐词组,具体包括:
从更新的所述语言模型中,获取所述目标新兴词语的读音对应的多个第一备选词语;
从更新的所述语言模型中,获取所述目标新兴词语的各所述上下文词语的读音分别对应的多个第二备选词语;
根据更新的所述语言模型中记录的各所述第一备选词语分别与各所述上下文词语对应的各所述第二备选词语一起出现的出现概率大小,从各所述第一备选词语和各所述上下文词语对应的各所述第二备选词的组合中,获取所述至少一个推荐词组;
进一步地,向用户显示所述至少一个输入信息,具体包括:
根据所述至少一个推荐词组的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐输入信息;各所述推荐输入信息中包括对应的所述推荐词组。
进一步可选地,如上所述的方法中,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息之前,所述方法还包括:
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,更新所述语言模型;
进一步的,根据所述多个新兴词语和所述多个新兴词语对应的新语料库,更新所述语言模型,具体包括:
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语的出现概率;
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率。
进一步可选地,如上所述的方法中,根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语的出现概率,具体包括:
计算所述多个新兴词语构成的新词典中各所述新兴词语在所述新语料库中的第一出现概率;
根据待更新的所述语言模型中各词语的出现概率的最小值,为各所述新兴词语设置对应的第二出现概率;
将各所述新兴词语的所述第一出现概率和所述第二出现概率进行线下插值,计算对应的所述新兴词语的出现概率;
将各所述新兴词语、以及各所述新兴词语的出现概率更新至所述语言模型中。
进一步可选地,如上所述的方法中,根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率,具体包括:
根据各所述新兴词语以及所述新语料库中各所述新兴词语对应的语料,计算各所述新兴词语与至少一个上下文词语在所述新语料库中一起出现的第三出现概率;
根据各所述新兴词语的所述第二出现概率,设置各所述新兴词语与至少一个上下文词语一起出现的第四出现概率;
将各所述新兴词语与至少一个上下文词语一起出现的所述第三出现概率和所述第四出现概率进行线性插值,获取对应的所述新兴词语与对应的至少一个上下文词语一起出现的出现概率;
将各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率更新至所述语言模型中。
本发明提供一种输入信息的推荐装置,所述装置包括:
接收模块,用于接收用户输入的携带目标新兴词语读音的输入请求;
获取模块,用于根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息;所述多个新兴词语包括所述目标新兴词语;
显示模块,用于向用户显示所述至少一个推荐输入信息。
进一步可选地,如上所述的装置中,所述获取模块,具体用于根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语读音对应的至少一个推荐词语。
进一步可选地,如上所述的装置中,所述获取模块,具体用于:
从更新的所述语言模型中,获取所述目标新兴词语读音对应的多个备选词语;
根据更新的所述语言模型中存储的所述多个备选词语的出现概率的大小,从所述多个备选词语中获取所述至少一个推荐词语;
进一步地,所述显示模块,具体用于根据所述至少一个推荐词语的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐词语。
进一步可选地,如上所述的装置中,所述获取模块,具体用于根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语的读音和所述输入请求中所述目标新兴词语的至少一个上下文词语的读音共同对应的所述至少一个推荐词组;所述推荐词组中包括所述目标新兴词语读音对应第一推荐词语和对应的所述至少一个上下文词语的读音分别对应的至少一个第二推荐词语。
进一步可选地,如上所述的装置中,所述获取模块,具体用于:
从更新的所述语言模型中,获取所述目标新兴词语的读音对应的多个第一备选词语;
从更新的所述语言模型中,获取所述目标新兴词语的各所述上下文词语的读音分别对应的多个第二备选词语;
根据更新的所述语言模型中记录的各所述第一备选词语分别与各所述上下文词语对应的各所述第二备选词语一起出现的出现概率大小,从各所述第一备选词语和各所述上下文词语对应的各所述第二备选词的组合中,获取所述至少一个推荐词组;
进一步地,所述显示模块,具体用于:
根据所述至少一个推荐词组的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐输入信息;各所述推荐输入信息中包括对应的所述推荐词组。
进一步可选地,如上所述的装置中,所述装置还包括:
更新模块,用于根据所述多个新兴词语和所述多个新兴词语对应的新语料库,更新所述语言模型;
进一步的,所述更新模块,具体用于:
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语的出现概率;
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率。
进一步可选地,如上所述的装置中,所述更新模块,具体用于:
计算所述多个新兴词语构成的新词典中各所述新兴词语在所述新语料库中的第一出现概率;
根据待更新的所述语言模型中各词语的出现概率的最小值,为各所述新兴词语设置对应的第二出现概率;
将各所述新兴词语的所述第一出现概率和所述第二出现概率进行线下插值,计算对应的所述新兴词语的出现概率;
将各所述新兴词语、以及各所述新兴词语的出现概率更新至所述语言模型中。
进一步可选地,如上所述的装置中,所述更新模块,具体还用于:
根据各所述新兴词语以及所述新语料库中各所述新兴词语对应的语料,计算各所述新兴词语与至少一个上下文词语在所述新语料库中一起出现的第三出现概率;
根据各所述新兴词语的所述第二出现概率,设置各所述新兴词语与至少一个上下文词语一起出现的第四出现概率;
将各所述新兴词语与至少一个上下文词语一起出现的所述第三出现概率和所述第四出现概率进行线性插值,获取对应的所述新兴词语与对应的至少一个上下文词语一起出现的出现概率;
将各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率更新至所述语言模型中。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的输入信息的推荐方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的输入信息的推荐方法。
本发明的输入信息的推荐方法、装置、计算机设备及可读介质,通过接收用户输入的携带目标新兴词语读音的输入请求;根据预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取输入请求对应的至少一个推荐输入信息;向用户显示至少一个推荐输入信息。与现有技术相比,本实施例的技术方案,采用预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取携带目标新兴词语读音的输入请求对应的至少一个推荐输入信息,从而可以保证该目标新兴词语被推荐,进而可以有效地节省用户输入目标新兴词语的操作成本,提高目标新兴词语的输入效率。
【附图说明】
图1为本发明的输入信息的推荐方法实施例一的流程图。
图2为本发明的输入信息的推荐方法实施例二的流程图。
图3为本发明的输入信息的推荐方法实施例三的流程图。
图4为本发明的输入信息的推荐装置实施例一的结构图。
图5为本发明的输入信息的推荐装置实施例二的结构图。
图6为本发明的计算机设备实施例的结构图。
图7为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的输入信息的推荐方法实施例一的流程图。如图1所示,本实施例的输入信息的推荐方法,具体可以包括如下步骤:
100、接收用户输入的携带目标新兴词语读音的输入请求;
本实施例的输入信息的推荐方法的执行主体可以为输入信息的推荐装置,例如该输入信息的推荐装置可以设置在信息输入装置如输入法的服务器侧,实现根据用户的输入请求,向用户推荐输入信息。
本实施例的输入信息的推荐方法可以适用于中文的输入,也可以适用于其他的、同一相同读音或者相似读音对应存在多种不同文字的语言中,如日语等等。例如很多信息输入装置如输入法支持语音输入。因此,本实施例中,用户输入的输入请求除了可以为文字形式,还可以为语音形式。本实施例的输入请求为文字形式时,对于输入中文时,该文字可以为中文的汉语拼音。即,本实施例中,输入请求为语音形式时,该输入请求中可以携带的目标新兴词语读音。若输入请求为文字形式时,该输入请求中可以携带目标新兴词语的拼音,该拼音即为目标新兴词语的读音。
可选地,本实施例的输入请求可以请求输入目标新兴词语,或者输入携带目标新兴词语的一个语句,该语句中除了目标新兴词语,还可以包括至少一个上下文词语。
101、根据预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取输入请求对应的至少一个推荐输入信息;
102、向用户显示至少一个推荐输入信息。
本实施例中,多个新兴词语可以包括目标新兴词语,这样,才可以将该目标新兴词语的相关信息更新至语言模型中,从而可以根据语言模型获取对应的推荐输入信息。
本实施例中,在步骤101之前,还可以从网络中最新的新闻或者网页中抽取一些新语料,这些新语料中可以包括近期新兴的、出现频率较高的新兴词语,例如新兴词语可以为某个近期火起来的品牌的名称、或者明星的名字或者其他一些特殊词语。对抽取的各新语料进行分词、过滤等预处理,将得到的每个词语与现有的词典进行对比,可以获取到出现频率较高、现有的词典未出现过的新兴词语。其中现有的词典可以为根据现有的语料库中的各语句语料进行分词得到的所有词语构成的。现有的语料库中包括的语料可以非常全面,例如可以包括通过全网采集得到的语料,本实施例的语料均为语句。对应地,现有的词典根据现有的语料库得到,即对应为全网词典。现有的语料库和词典的更新周期非常慢,例如,可以半年或者一年更新一次,而且更新过程非常麻烦,需要全网从新采集语料,生成语料库,并对各语料进行分词处理,获取全网的词语,生成全网的词典。而本实施例中,预先使用多个新兴词语和多个新兴词语对应的新语料库更新语言模型的周期可以非常短,例如可以为一周或者两周或者一个月,或者其他远小于语料库和词典更新周期的时间段。
本实施例中的语言模型中可以包括词典中的每一个词语在现有的语料库中的出现概率,以及该词语的N元词语的出现概率,其中该词语的N元词语可以包括该词语与该词语的N-1个上下文词语。例如该词语的1元词语仅包括该词语,该词语的2元词语可以包括该词语和该词语之前或者之后的一个上下文词语,该词语的2元词语的出现概率为在语料库中,该词语、与该词语之前或者之后的一个上下文词语一起出现的出现概率。该词语的3元词语可以包括该词语、该词语之前和/或之后的2个上下文词语,该词语的3元词语的出现概率为在语料库中,该词语、该词语之前和/或之后的2个上下文词语一起出现的出现概率。以此类推,可以得到该词语的N元词语的出现概率。也就是说,该语言模型类似于一张很大的信息表,在该信息表中存储有每一个词语以及对应的N元词语的出现概率。
本实施例中,在步骤101之前,可以使用多个新兴词语和多个新兴词语对应的新语料库预先更新语言模型,这样,语言模型中增加了新兴词语对应的相关信息,这样,语言模型中就包括有目标新兴词语对应的相关信息,便可以根据该更新后的语言模型,获取输入请求对应的至少一个推荐输入信息。这样,获取的推荐输入信息中可以包括有目标新兴词语,这样,最后向用户显示至少一个推荐输入信息,用户可以从至少一个推荐输入信息中获取到目标新兴词语,从而不用逐个选择目标新兴词语的每个字实现目标新兴词语的输入,可以节省用户输入目标新兴词语的操作成本,提高目标新兴词语的输入效率。
本实施例的输入信息的推荐方法,通过接收用户输入的携带目标新兴词语读音的输入请求;根据预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取输入请求对应的至少一个推荐输入信息;向用户显示至少一个推荐输入信息。与现有技术相比,本实施例的技术方案,采用预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取携带目标新兴词语读音的输入请求对应的至少一个推荐输入信息,从而可以保证该目标新兴词语被推荐,进而可以有效地节省用户输入目标新兴词语的操作成本,提高目标新兴词语的输入效率。
图2为本发明的输入信息的推荐方法实施例二的流程图。本实施例的输入信息的推荐方法,以输入请求仅请求输入目标新兴词语为例,详细介绍本发明的技术方案。如图2所示,本实施例的输入信息的推荐方法,具体可以包括如下步骤:
200、根据多个新兴词语和多个新兴词语对应的新语料库,更新语言模型;
本实施例中,同理,可以预先从网络中抽取最新的新闻或者网页中抽取多个新语料,这些新语料中可以包括近期新兴的、出现频率较高的新兴词语。例如,本实施例中,可以从一些经常报道新兴事件、实时性较强的网站,抽取最近一段时间内出现频率较高例如大于预设阈值的新兴词语和各新兴词语对应的新语料。通过这种方式可以获取到多个新兴词语,这些新兴词语可以构成一个新词典。抽取的多个新语料可以构成新语料库。
然后,根据多个新兴词语和多个新兴词语对应的新语料库,更新语言模型,具体可以包括两个方面:
(A)根据多个新兴词语和多个新兴词语对应的新语料库,在语言模型中增加各新兴词语的出现概率;
(B)根据多个新兴词语和多个新兴词语对应的新语料库,在语言模型中增加各新兴词语与对应的至少一个上下文词语一起出现的出现概率;即在语言模型中增加各新兴词语对应的N元词语的出现概率。
本实施例中,在获取到多个新兴词语和多个新兴词语对应的新语料库之后,可以根据多个新兴词语和多个新兴词语对应的新语料库,在语言模型中追加各新兴词语的出现概率以及各新兴词语的N元词语的出现概率,从而更新语言模型。
例如,进一步地,该步骤(A),具体可以包括如下步骤:
(a1)计算多个新兴词语构成的新词典中各新兴词语在新语料库中的第一出现概率;
本实施例中,抽取的多个新兴词语可以构成一个新词典,新词典中的多个新兴词语对应的新语料库中包括每个新兴词语对应的语料语句。经过统计分析,可以计算每个新兴词语在新语料库中的第一出现概率。
(b1)根据待更新的语言模型中各词语的出现概率的最小值,为各新兴词语设置对应的第二出现概率;
(c1)将各新兴词语的第一出现概率和第二出现概率进行线性插值,计算对应的新兴词语的出现概率;
(d1)将各新兴词语、以及各新兴词语的出现概率更新至语言模型中。
具体地,本实施例中在待更新的语言模型中更新各新兴词语时,若直接将新兴词语的出现概率设置为0,会导致该新兴词语不会被推荐,不符合使用场景。而若直接根据步骤(a1)获取的第一出现概率,将对应的新兴词语的出现概率设置为第一出现概率,也不太符合实际,因为,新兴词语仅在新语料库中出现概率较高,而在待更新的语料库中没有出现,从而在将新语料库更新至现有的待更新的语料库中时,该新兴词语的出现概率不会高至第一出现概率。因此,本实施例中,由于待更新的语言模型中记录有多个词语的出现概率,然后,可以先从多个词语的出现概率中获取出现概率的最小值,然后根据该出现概率的最小值为各新兴词语设置对应的第二出现概率。例如设置的各新兴词语的第二出现概率与待更新的语言模型中出现概率的最小值为一个数量级,这样,表示在待更新的语言模型中,该新兴词语具有被推荐的可能性。例如,若待更新的语言模型中出现概率的最小值为0.003,则设置的各新兴词语的第二出现概率与0.003一个数量级,例如可以为0.001-0.009。优选地,可以选取靠近0.003的概率。
然后本实施例中,可以将各新兴词语的第一出现概率和第二出现概率进行线性插值计算,例如可以直接将各新兴词语的第一出现概率和第二出现概率相加,然后归一化,作为该新兴词语的出现概率;或者按比例将各新兴词语的第一出现概率和第二出现概率进行相加。例如,新兴词语的第一出现概率乘以第一插值系数r加上对应的第二出线概率乘以第二插值系数(1-r),然后可以进行归一化处理,得到该新兴词语的出现概率。其中r为大于0小于1的数。本实施例中通过调整插值系数,可以控制更新后的语言模型,对待更新的语言模型的影响。例如,第一插值系数r越大,新兴词语的出现概率将相对越大,而第一插值系数r越小,新兴词语的出现概率将相对越小。本实施例中,可以通过反复调整第一插值系数,优化语言模型,获取各新兴词语的出现概率的最佳值,使得各新兴词语的出现概率与语音模型中其他各词语的出现概率的数值的数量级相当。经过本实施例的处理,更新后的语言模型中必然包括各新兴词语、以及各新兴词语的出现概率,在用户的输入请求中携带新兴词语的读音时,便可以根据语言模型中的新兴词语的出现概率,获取到该对应的新兴词语作为推荐词语,进而向用户推荐该新兴词语,用户可以直接根据推荐的该新兴词语直接进行信息输入,而避免对新兴词语中的每个字单独输入,减少了信息输入的操作成本,提高了信息输入的效率。
进一步地,该步骤(B),具体可以包括如下步骤:
(a2)根据各新兴词语以及新语料库中各新兴词语对应的语料,计算各新兴词语与至少一个上下文词语在新语料库中一起出现的第三出现概率;
本实施例的语料,具体为语句语料。在新兴词语对应的每一个语料中,可以获取到该新兴词语的至少一个上下文词语,上下文词语可以位于新兴词语之前和/或之后。本实施例中,可以根据各新兴词语以及新语料库中各新兴词语对应的语料,计算各新兴词语与至少一个上下文词语在新语料库中一起出现的第三出现概率。例如在新语料库的第一语料中,新兴词语A之后为词语B;在第二语料中,新兴词语A之前为词语C;在第三语料中,新兴词语A之前为词语D,之后为词语B;在第四语料中,新兴词语A之前为词语C,之后为词语B;等等。这样根据新语料库中的各语料,可以统计出新兴词语A与之后的词语B一起出现的第三出现概率,还可以统计出该新兴词语A与之前的词语C一起出现的第三出现概率,还可以统计出该新兴词语A与之前的词语C以及之后的词语B一起出现的第三出现概率,等等。按照上述方式,可以得到各新兴词语与至少一个上下文词语在新语料库中一起出现的第三出现概率。
(b2)根据步骤(b1)得到的各新兴词语的第二出现概率,设置各新兴词语与至少一个上下文词语一起出现的第四出现概率;
上述实施例的步骤(b1)中已经设置了各新兴词语在待更新的语言模型中的第二出现概率,而若各新兴词语加上其在新语料库对应的至少一个上下文词语一起出现的概率,必将小于第二出现概率。因此,可以设置各新兴词语与至少一个上下文词语一起出现的第四出现概率,等于第二出现概率乘以小于1的系数。
(c2)将各新兴词语与至少一个上下文词语一起出现的第三出现概率和第四出现概率进行线性插值,获取对应的新兴词语与对应的至少一个上下文词语一起出现的出现概率;
(d2)将各新兴词语与对应的至少一个上下文词语一起出现的出现概率更新至语言模型中。
同理,按照上述步骤(c1)的方式,可以将各新兴词语与至少一个上下文词语一起出现的第三出现概率和第四出现概率进行线性插值,得到对应的新兴词语与对应的至少一个上下文词语一起出现的出现概率,详细参考上述步骤(c1)的实现方式,在此不再赘述。最后将各新兴词语与对应的至少一个上下文词语一起出现的出现概率更新至语言模型中。需要说明的是,对于同一新兴词语,若存在多个N元词语,需要分别计算每个N元词语一起出现的出现概率,更新至语言模型中。这样,在语言模型中便存在新兴词语的N元词语的出现概率,若新兴词语的N元词语的读音被请求输入时,根据语言模型便可以被推荐到。
上述实施例的过程为更新语言模型的过程,可以在输入信息的推荐之前预先完成。
201、接收用户输入的携带目标新兴词语读音的输入请求;
详细可以参考上述图1所示实施例的步骤100的实施,在此不再赘述。
202、根据更新的语言模型,获取目标新兴词语读音对应的至少一个推荐词语;
例如,该步骤202,具体可以包括如下步骤:从更新的语言模型中,获取目标新兴词语读音对应的多个备选词语;根据更新的语言模型中存储的多个备选词语的出现概率的大小,从多个备选词语中获取至少一个推荐词语。
具体地,更新的语言模型中包括有每一个新兴词语的出现概率。本实施例中,根据新兴词语读音可以从更新的语言模型中,获取该新型词语读音的多个备选词语。然后可以根据多个备选词语的出现概率大小,从多个备选词语中获取至少一个推荐词语。例如,若推荐词语的数量为1个,从多个备选词语中获取出现概率最大的备选词语作为推荐词语。而多推荐词语的数量为N个,则从多个备选词语中获取出现概率最大的N个备选词语作为推荐词语,N为任意正整数。经过上述步骤200对语言模型的更新,优化了新兴词语的出现概率,而在根据目标新兴词语读音获取对应的推荐词语时,可以增大推荐词语包括目标新兴词语的概率。
需要说明的是,由于本实施例的语言模型包括每一个词语以及每个词语对应的出现概率。所以可以从更新的语言模型中,获取目标新兴词语读音对应的多个备选词语。但是由于语言模型数据存储的特殊性,若不方便从语言模型中获取多个备选词语时,也可以从更新后的语言模型对应的词典中获取多个备选词语。本实施例中,更新后的语言模型对应的词典可以为将多个新兴词语构成的新词典加入至现有的词典中,以更新现有的词典所得到的。
203、根据至少一个推荐词语的出现概率由大到小的顺序,向用户显示至少一个推荐词语。
也就是说,向用户显示推荐词语时,优先显示出现概率大的,这样,用户在根据至少一个推荐词语信息输入时,可以快速找到目标新兴词语,而不用逐个输入目标新兴词语的每一个字,从而可以节省用户输入目标新兴词语的操作成本。
本实施例的输入信息的推荐方法,通过采用上述技术方案,可以实现采用预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取携带目标新兴词语读音对应的至少一个推荐词语,从而可以保证该目标新兴词语被推荐,进而可以有效地节省用户输入目标新兴词语的操作成本,提高目标新兴词语的输入效率。
图3为本发明的输入信息的推荐方法实施例三的流程图。本实施例的输入信息的推荐方法,以输入请求请求输入携带目标新兴词语的语句为例,详细介绍本发明的技术方案。如图3所示,本实施例的输入信息的推荐方法,具体可以包括如下步骤:
300、根据多个新兴词语和多个新兴词语对应的新语料库,更新语言模型;
具体可以参考上述图2所示实施例的步骤200的具体实施,在此不再赘述。
301、接收用户输入的携带目标新兴词语读音的输入请求;
详细可以参考上述图1所示实施例的步骤100的实施,在此不再赘述。
302、根据更新的语言模型,获取目标新兴词语的读音和输入请求中目标新兴词语的至少一个上下文词语的读音共同对应的至少一个推荐词组;各推荐词组中包括目标新兴词语读音对应第一推荐词语和对应的至少一个上下文词语的读音分别对应的至少一个第二推荐词语;
本实施例的步骤302与上述图2所示实施例的步骤202的区别在于:上述图2所示实施例的步骤202在获取目标新兴词语对应的至少一个推荐词语。而本实施例在获取目标新兴词语的读音和输入请求中目标新兴词语的至少一个上下文词语的读音共同对应的至少一个推荐词组。本实施例的推荐词组中除了包括目标新兴词语的读音对应的第一推荐词语,还包括输入请求中该目标新兴词语的读音对应的至少一个上下文词语的读音对应至少一个第二推荐词语。也就是说,在步骤301接收用户输入的携带目标新兴词语读音的输入请求之后,还需要对输入请求进行语义分析,获取一起出现的至少两个词组的语音,这至少两个词组的语音中可以包括目标新兴词语的读音和上下文词语的读音。
例如,该步骤302,具体可以包括如下步骤:
(a3)从更新的语言模型中,获取目标新兴词语的读音对应的多个第一备选词语;
(b3)从更新的语言模型中,获取目标新兴词语的各上下文词语的读音分别对应的多个第二备选词语;
(c3)根据更新的语言模型中记录的各第一备选词语分别与各上下文词语对应的各第二备选词语一起出现的出现概率大小,从各第一备选词语和各上下文词语对应的各第二备选词的组合中,获取至少一个推荐词组。
具体实现时,可以分别从更新的语言模型中,分别获取目标新兴词语的读音对应的多个第一备选词语,以及各上下文词语的读音分别对应的多个第二备选词语;将各第一备选词语与每个上下文词语对应的各第二备选词语组合,构成词组,在更新的语言模型中获取每个词组的出现概率。例如,若输入请求的读音中包括两个词组A和B,这样,可以根据两个词组的读音A和B,分别获取到A读音对应的多个词语和B读音对应的多个词语,然后将A读音为多个词语分别与B读音的多个词语组合,形成读音A和B的多个词组。然后在更新的语言模型中,可以获取到多个词组的出现概率,从而可以根据多个词组的出现概率的大小,从大到小取至少一个推荐词组。
303、根据至少一个推荐词组的出现概率由大到小的顺序,向用户显示至少一个推荐输入信息,各推荐输入信息中包括对应的推荐词组。
本实施例,输入请求中请求输入的语句除了包括推荐词组还可以包括其他不用语言模型推荐便可以准确得知的词,如人称代词你、我、他之类的等等,或者其他一些语气词啊、呢、吗之类的等等,或者还可以包括的、地、得之类的词语等等,这些词语可以不用语言模型推荐,在获取到推荐词组之后,可以再根据推荐词组和输入请求,生成对应的推荐输入信息。
因此,推荐词组可以为推荐输入信息中的关键词,但推荐输入信息中还可以包括其他非关键词如人称代词或语气词等等,在获取到至少一个推荐词组之后,还需要根据各推荐词组补充输入请求中的其他信息,从而完善对应的至少一个推荐输入信息,并根据至少一个推荐词组的出现概率由大到小的顺序,向用户显示对应的至少一个推荐输入信息。
同理,向用户显示推荐词组时,优先显示出现概率大的,这样,用户在根据至少一个推荐词组信息输入时,可以快速找到想要的包括目标新兴词语的词组的,而不用逐个输入目标新兴词语中的每一个字,从而可以节省用户输入包括目标新兴词语的语句的操作成本。
另外,可选地,本实施例中的输入请求中的所有读音词语可以被拆分,均由语言模型来推荐,此时推荐输入信息即为推荐词组,不需要再根据推荐词组和输入请求,恢复推荐输入信息。
本实施例的输入信息的推荐方法,通过采用上述技术方案,可以实现采用预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取携带目标新兴词语读音对应的至少一个推荐词组,从而可以保证该目标新兴词语与对应的上下文词语被推荐,进而可以有效地节省用户输入目标新兴词语和对应的上下文词语的操作成本,提高目标新兴词语和对应的上下文词语的输入效率。
图4为本发明的输入信息的推荐装置实施例一的结构图。如图4所示,本实施例的输入信息的推荐装置,具体可以包括:
接收模块10用于接收用户输入的携带目标新兴词语读音的输入请求;
获取模块11用于根据预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取接收模块10接收的输入请求对应的至少一个推荐输入信息;多个新兴词语包括目标新兴词语;
显示模块12用于向用户显示获取模块11获取的至少一个推荐输入信息。
本实施例的输入信息的推荐装置,通过采用上述模块实现输入信息的推荐的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图5为本发明的输入信息的推荐装置实施例二的结构图。如图5所示,本实施例的输入信息的推荐装置,在上述图4所示实施例的技术方案的基础上,具体还包括如下技术方案。
本实施例的输入信息的推荐装置中,获取模块11具体用于根据预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取接收模块10接收的输入请求中的目标新兴词语读音对应的至少一个推荐词语。
进一步可选地,该获取模块11具体用于:
从更新的语言模型中,获取接收模块10接收的输入请求中的目标新兴词语读音对应的多个备选词语;
根据更新的语言模型中存储的多个备选词语的出现概率的大小,从多个备选词语中获取至少一个推荐词语;
进一步地,显示模块12具体用于根据获取模块11获取的至少一个推荐词语的出现概率由大到小的顺序,向用户显示至少一个推荐词语。
或者可选地,本实施例的输入信息的推荐装置中,获取模块11具体用于根据预先使用多个新兴词语和多个新兴词语对应的新语料库更新的语言模型,获取目标新兴词语的读音和输入请求中目标新兴词语的至少一个上下文词语的读音共同对应的至少一个推荐词组;推荐词组中包括目标新兴词语读音对应第一推荐词语和对应的至少一个上下文词语的读音分别对应的至少一个第二推荐词语。
进一步可选地,该获取模块11具体用于:
从更新的语言模型中,获取接收模块10接收的输入请求中的目标新兴词语的读音对应的多个第一备选词语;
从更新的语言模型中,获取接收模块10接收的输入请求中的目标新兴词语的各上下文词语的读音分别对应的多个第二备选词语;
根据更新的语言模型中记录的各第一备选词语分别与各上下文词语对应的各第二备选词语一起出现的出现概率大小,从各第一备选词语和各上下文词语对应的各第二备选词的组合中,获取至少一个推荐词组;
进一步地,显示模块12具体用于根据获取模块11获取的至少一个推荐词组的出现概率由大到小的顺序,向用户显示至少一个推荐输入信息;各推荐输入信息中包括对应的推荐词组。
如图5所示,本实施例的输入信息的推荐装置中,还包括:
更新模块13用于根据多个新兴词语和多个新兴词语对应的新语料库,更新语言模型;
进一步地,更新模块13具体用于:
根据多个新兴词语和多个新兴词语对应的新语料库,在语言模型中增加各新兴词语的出现概率;
根据多个新兴词语和多个新兴词语对应的新语料库,在语言模型中增加各新兴词语与对应的至少一个上下文词语一起出现的出现概率。
进一步地,更新模块13具体用于:
计算多个新兴词语构成的新词典中各新兴词语在新语料库中的第一出现概率;
根据待更新的语言模型中各词语的出现概率的最小值,为各新兴词语设置对应的第二出现概率;
将各新兴词语的第一出现概率和第二出现概率进行线下插值,计算对应的新兴词语的出现概率;
将各新兴词语、以及各新兴词语的出现概率更新至语言模型中。
进一步地,更新模块13具体还用于:
根据各新兴词语以及新语料库中各新兴词语对应的语料,计算各新兴词语与至少一个上下文词语在新语料库中一起出现的第三出现概率;
根据各新兴词语的第二出现概率,设置各新兴词语与至少一个上下文词语一起出现的第四出现概率;
将各新兴词语与至少一个上下文词语一起出现的第三出现概率和第四出现概率进行线性插值,获取对应的新兴词语与对应的至少一个上下文词语一起出现的出现概率;
将各新兴词语与对应的至少一个上下文词语一起出现的出现概率更新至语言模型中。
对应地,获取模块11用于根据更新模块13更新的语言模型,获取接收模块10接收的输入请求对应的至少一个推荐输入信息;
本实施例的输入信息的推荐装置,通过采用上述模块实现输入信息的推荐的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图6为本发明的计算机设备实施例的结构图。如图6所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图3所示实施例输入信息的推荐方法。图6所示实施例中以包括多个处理器30为例。本实施例的计算机设备可以为信息输入装置如输入法的服务器设备。
例如,图7为本发明提供的一种计算机设备的示例图。图7示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图,该计算机设备可以为信息输入装置如输入法的服务器设备。图7显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图5各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图5各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的输入信息的推荐。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的输入信息的推荐。
本实施例的计算机可读介质可以包括上述图7所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (18)

1.一种输入信息的推荐方法,其特征在于,所述方法包括:
接收用户输入的携带目标新兴词语读音的输入请求;
根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息;所述多个新兴词语包括所述目标新兴词语;
向用户显示所述至少一个推荐输入信息。
2.根据权利要求1所述的方法,其特征在于,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息,具体包括:
根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语读音对应的至少一个推荐词语。
3.根据权利要求2所述的方法,其特征在于,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语读音对应的至少一个推荐词语,具体包括:
从更新的所述语言模型中,获取所述目标新兴词语读音对应的多个备选词语;
根据更新的所述语言模型中存储的所述多个备选词语的出现概率的大小,从所述多个备选词语中获取所述至少一个推荐词语;
进一步地,向用户显示所述至少一个输入信息,具体包括:
根据所述至少一个推荐词语的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐词语。
4.根据权利要求1所述的方法,其特征在于,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息,具体包括:
根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语的读音和所述输入请求中所述目标新兴词语的至少一个上下文词语的读音共同对应的所述至少一个推荐词组;所述推荐词组中包括所述目标新兴词语读音对应第一推荐词语和对应的所述至少一个上下文词语的读音分别对应的至少一个第二推荐词语。
5.根据权利要求4所述的方法,其特征在于,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语的读音和所述输入请求中所述目标新兴词语的至少一个上下文词语的读音共同对应的所述至少一个推荐词组,具体包括:
从更新的所述语言模型中,获取所述目标新兴词语的读音对应的多个第一备选词语;
从更新的所述语言模型中,获取所述目标新兴词语的各所述上下文词语的读音分别对应的多个第二备选词语;
根据更新的所述语言模型中记录的各所述第一备选词语分别与各所述上下文词语对应的各所述第二备选词语一起出现的出现概率大小,从各所述第一备选词语和各所述上下文词语对应的各所述第二备选词的组合中,获取所述至少一个推荐词组;
进一步地,向用户显示所述至少一个输入信息,具体包括:
根据所述至少一个推荐词组的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐输入信息;各所述推荐输入信息中包括对应的所述推荐词组。
6.根据权利要求1-5任一所述的方法,其特征在于,根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息之前,所述方法还包括:
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,更新所述语言模型;
进一步的,根据所述多个新兴词语和所述多个新兴词语对应的新语料库,更新所述语言模型,具体包括:
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语的出现概率;
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率。
7.根据权利要求6所述的方法,其特征在于,根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语的出现概率,具体包括:
计算所述多个新兴词语构成的新词典中各所述新兴词语在所述新语料库中的第一出现概率;
根据待更新的所述语言模型中各词语的出现概率的最小值,为各所述新兴词语设置对应的第二出现概率;
将各所述新兴词语的所述第一出现概率和所述第二出现概率进行线下插值,计算对应的所述新兴词语的出现概率;
将各所述新兴词语、以及各所述新兴词语的出现概率更新至所述语言模型中。
8.根据权利要求7所述的方法,其特征在于,根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率,具体包括:
根据各所述新兴词语以及所述新语料库中各所述新兴词语对应的语料,计算各所述新兴词语与至少一个上下文词语在所述新语料库中一起出现的第三出现概率;
根据各所述新兴词语的所述第二出现概率,设置各所述新兴词语与至少一个上下文词语一起出现的第四出现概率;
将各所述新兴词语与至少一个上下文词语一起出现的所述第三出现概率和所述第四出现概率进行线性插值,获取对应的所述新兴词语与对应的至少一个上下文词语一起出现的出现概率;
将各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率更新至所述语言模型中。
9.一种输入信息的推荐装置,其特征在于,所述装置包括:
接收模块,用于接收用户输入的携带目标新兴词语读音的输入请求;
获取模块,用于根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述输入请求对应的至少一个推荐输入信息;所述多个新兴词语包括所述目标新兴词语;
显示模块,用于向用户显示所述至少一个推荐输入信息。
10.根据权利要求9所述的装置,其特征在于,所述获取模块,具体用于根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语读音对应的至少一个推荐词语。
11.根据权利要求10所述的装置,其特征在于,所述获取模块,具体用于:
从更新的所述语言模型中,获取所述目标新兴词语读音对应的多个备选词语;
根据更新的所述语言模型中存储的所述多个备选词语的出现概率的大小,从所述多个备选词语中获取所述至少一个推荐词语;
进一步地,所述显示模块,具体用于根据所述至少一个推荐词语的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐词语。
12.根据权利要求9所述的装置,其特征在于,所述获取模块,具体用于根据预先使用多个新兴词语和所述多个新兴词语对应的新语料库更新的语言模型,获取所述目标新兴词语的读音和所述输入请求中所述目标新兴词语的至少一个上下文词语的读音共同对应的所述至少一个推荐词组;所述推荐词组中包括所述目标新兴词语读音对应第一推荐词语和对应的所述至少一个上下文词语的读音分别对应的至少一个第二推荐词语。
13.根据权利要求12所述的装置,其特征在于,所述获取模块,具体用于:
从更新的所述语言模型中,获取所述目标新兴词语的读音对应的多个第一备选词语;
从更新的所述语言模型中,获取所述目标新兴词语的各所述上下文词语的读音分别对应的多个第二备选词语;
根据更新的所述语言模型中记录的各所述第一备选词语分别与各所述上下文词语对应的各所述第二备选词语一起出现的出现概率大小,从各所述第一备选词语和各所述上下文词语对应的各所述第二备选词的组合中,获取所述至少一个推荐词组;
进一步地,所述显示模块,具体用于:
根据所述至少一个推荐词组的出现概率由大到小的顺序,向所述用户显示所述至少一个推荐输入信息;各所述推荐输入信息中包括对应的所述推荐词组。
14.根据权利要求9-13任一所述的装置,其特征在于,所述装置还包括:
更新模块,用于根据所述多个新兴词语和所述多个新兴词语对应的新语料库,更新所述语言模型;
进一步的,所述更新模块,具体用于:
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语的出现概率;
根据所述多个新兴词语和所述多个新兴词语对应的新语料库,在所述语言模型中增加各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率。
15.根据权利要求14所述的装置,其特征在于,所述更新模块,具体用于:
计算所述多个新兴词语构成的新词典中各所述新兴词语在所述新语料库中的第一出现概率;
根据待更新的所述语言模型中各词语的出现概率的最小值,为各所述新兴词语设置对应的第二出现概率;
将各所述新兴词语的所述第一出现概率和所述第二出现概率进行线下插值,计算对应的所述新兴词语的出现概率;
将各所述新兴词语、以及各所述新兴词语的出现概率更新至所述语言模型中。
16.根据权利要求15所述的装置,其特征在于,所述更新模块,具体还用于:
根据各所述新兴词语以及所述新语料库中各所述新兴词语对应的语料,计算各所述新兴词语与至少一个上下文词语在所述新语料库中一起出现的第三出现概率;
根据各所述新兴词语的所述第二出现概率,设置各所述新兴词语与至少一个上下文词语一起出现的第四出现概率;
将各所述新兴词语与至少一个上下文词语一起出现的所述第三出现概率和所述第四出现概率进行线性插值,获取对应的所述新兴词语与对应的至少一个上下文词语一起出现的出现概率;
将各所述新兴词语与对应的至少一个上下文词语一起出现的出现概率更新至所述语言模型中。
17.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201710695255.8A 2017-08-15 2017-08-15 输入信息的推荐方法、装置、计算机设备及可读介质 Pending CN107562220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710695255.8A CN107562220A (zh) 2017-08-15 2017-08-15 输入信息的推荐方法、装置、计算机设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710695255.8A CN107562220A (zh) 2017-08-15 2017-08-15 输入信息的推荐方法、装置、计算机设备及可读介质

Publications (1)

Publication Number Publication Date
CN107562220A true CN107562220A (zh) 2018-01-09

Family

ID=60975388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710695255.8A Pending CN107562220A (zh) 2017-08-15 2017-08-15 输入信息的推荐方法、装置、计算机设备及可读介质

Country Status (1)

Country Link
CN (1) CN107562220A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114141236A (zh) * 2021-10-28 2022-03-04 北京百度网讯科技有限公司 语言模型更新方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1971557A (zh) * 2005-11-25 2007-05-30 英业达股份有限公司 词汇共享系统及方法
CN102314876A (zh) * 2010-06-29 2012-01-11 株式会社理光 语音检索的方法和系统
CN103678371A (zh) * 2012-09-14 2014-03-26 富士通株式会社 词库更新装置、数据整合装置和方法以及电子设备
CN105760521A (zh) * 2016-02-29 2016-07-13 百度在线网络技术(北京)有限公司 信息输入方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1971557A (zh) * 2005-11-25 2007-05-30 英业达股份有限公司 词汇共享系统及方法
CN102314876A (zh) * 2010-06-29 2012-01-11 株式会社理光 语音检索的方法和系统
CN103678371A (zh) * 2012-09-14 2014-03-26 富士通株式会社 词库更新装置、数据整合装置和方法以及电子设备
CN105760521A (zh) * 2016-02-29 2016-07-13 百度在线网络技术(北京)有限公司 信息输入方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114141236A (zh) * 2021-10-28 2022-03-04 北京百度网讯科技有限公司 语言模型更新方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107204184B (zh) 语音识别方法及系统
EP3881317B1 (en) System and method for accelerating user agent chats
US10354009B2 (en) Characteristic-pattern analysis of text
US9164983B2 (en) Broad-coverage normalization system for social media language
US9002696B2 (en) Data security system for natural language translation
US20210082410A1 (en) Using semantic frames for intent classification
EP3547163A1 (en) Translation method and apparatus
CN107193973A (zh) 语义解析信息的领域识别方法及装置、设备及可读介质
US10162812B2 (en) Natural language processing system to analyze mobile application feedback
EP1791114A1 (en) A method for personalization of a service
CN108710647B (zh) 一种用于聊天机器人的数据处理方法及装置
CN110942763B (zh) 语音识别方法及装置
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
CN105657129A (zh) 通话信息获取方法和装置
CN103678269A (zh) 一种信息处理方法和装置
CN102622696B (zh) 一种客服回访的方法和装置
CN109933215A (zh) 汉字拼音转换方法、装置、终端及计算机可读存储介质
CN110457683A (zh) 模型优化方法、装置、计算机设备及存储介质
CN111241833A (zh) 一种文本数据的分词方法、装置及电子设备
WO2016083907A1 (en) System and method for detecting meaningless lexical units in a text of a message
CN107562220A (zh) 输入信息的推荐方法、装置、计算机设备及可读介质
WO2019231346A1 (ru) Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале
CN107203510A (zh) 文字检测方法及装置
US20240233427A1 (en) Data categorization using topic modelling
CN101727204A (zh) 一种通信终端上的文字输入系统、方法及通信终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180109

RJ01 Rejection of invention patent application after publication