CN105095269A - 查询语句的获取方法及服务器 - Google Patents
查询语句的获取方法及服务器 Download PDFInfo
- Publication number
- CN105095269A CN105095269A CN201410196481.8A CN201410196481A CN105095269A CN 105095269 A CN105095269 A CN 105095269A CN 201410196481 A CN201410196481 A CN 201410196481A CN 105095269 A CN105095269 A CN 105095269A
- Authority
- CN
- China
- Prior art keywords
- conjunctive word
- word
- conjunctive
- degree
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种查询语句的获取方法及服务器,包括:对语料库中的第一关联词和第二关联词,在语料库中识别并获取第一关联词与第二关联词连续排列的连排次数,间隔排列的间列次数和第一关联词的总次数;根据连排次数,间列次数和总次数,获得第一关联词与第二关联词的关联度,并按照关联度,将第一关联词和所述第二关联词,生成参考查询语句库;接收用户在搜索框中输入的查询信息;根据查询信息,从参考查询语句库中获取相关联的查询语句,以将查询语句作为备选查询语句推荐给用户。由于同时获取了第一关联词与第二关联词间隔排列的间列次数,因此本申请可以提高词对的关联度,从而本申请的方法能向终端用户推送正确的备选查询语句。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种查询语句的获取方法及服务器。
背景技术
在网页页面的搜索中,当用户通过搜索框输入查询信息,且该查询信息为一个词语时,通常需要根据该词语与网页服务器已存储的词语的关联度,来猜测用户想要输入的查询语句,并将该猜测的查询语句作为备选查询语句推荐给用户。
词对的关联度计算即为在给定前n个词的情况下,计算出现某个词的概率。在关联度的计算中,最常用的模型是N元语言(N-gram)模型,N表示长文本中连续出现的N个词,该模型基于马尔科夫假设,其认为:1)第n个词出现的概率仅仅依赖于第n-1个词出现的概率;2)n个词连续出现的概率等于这n个词分别出现的概率的乘积。用公式表达如下:
P(W1W2…Wn)=P(W1)?(W2|W1)P(Wa|W1W2)…P(WnW1W2…Wa-1)
对于P(Wi|W1W2...Wi-1)可采用最大似然估计计算,计算公式如下:
其中,C(W1W2...Wi)表示在训练语料中,W1W2...Wi连续出现的频率。在上述第一个公式中,尽管n的取值越大,对下一个词出现的约束信息更多,估计概率更有辨识度,但n值越大,数据稀疏的情况就越明显,零概率的产生就更容易,而且计算代码也随之增大。而对于较小的n,由于在训练语料中能获得更可靠的统计信息,所以估计的概率会更可靠。由上,最常用的N-gram模型是二元语言模型(Bigram),其计算公式如下:
P(W1W2…Wn)=P(W1)P(W2|W1)P(Wa|W2)…P(Wn|Wn-1)
假如训练语料中有以下3个句子:
SWIMMINGISGOODEXERCISE.TENNISISAGOODFORMOFEXERCISE.
TENNISISBETTERTHANBADMINTON.
则通过Bigram模型,预估句子TENNISISGOODEXERCISE的概率:
但实际情况下,数据是不完全的,也即数据存在稀疏性,使得存在C(Wi-1Wi)=0情况,此时P(Wi|Wi-1)的最大似然估计值P(Wi|Wi-1)=0,即P(W1W2…Wn)=0。
如,训练语料还是上面的3句,对于句子BADMINTONISGOODEXERCISE,使用Bigram模型预估其出现的概率为:
在预估计一个句子W1W2…Wn出现的概率时,只要存在一个C(Wt-1Wt)=0,则就会有P(W1W2…Wn)=0。因此,为了减少零概率的出现,需要进行平滑计算。
现有技术中,提出了一系列经典的平滑算法,这些算法的基本思想是在保证概率和为1的基础上,降低已出现的N-gram条件概率分布,从而使得未出现的N-gram提交概率分布非零。加一(Add-one)平滑法,也称拉普拉斯(Laplace)平滑法、古德-图灵(Good-Turing)平滑法、聂氏(Kneser-Ney)平滑法、线性内插(LinearInterpolation)平滑法、卡茨退避(KatzBackoff)平滑法以及愚蠢退避(StupidBackoff)平滑法等都是常用的平滑算法。Add-one平滑法的思想很简单,就是对于每个N-gram,C(WkWk+1…Wk+n)都执行加1操作,认为它们在训练语料中至少出现一次,从而有:
其中V是N-gram在训练语料中的个数。Good-Turing平滑法和Add-One比较相似。然而无论是Add-one平滑法还是Good-Turing平滑法,都不是一种比较好的平滑计算,因为他们对所有未出现的N-gram都采取相同的操作,忽略了不同N-gram之间的概率差异性。
与Add-one平滑法以及Good-Turing平滑法不同,LinearInterpolation平滑法、KatzBackoff平滑法、Kneser-Ney平滑法以及StupidBackoff平滑法都是一种基于线性插值的平滑技术,即利用低阶N-gram模型与高阶N-gram模型作线性组合,当高阶N-gram模型不存在的时候,使用低阶N-gram模型来提供有用的信息。其中由谷歌(Google)提出的针对大规模N-gram模型的StupidBackoff的计算公式如下:
其中,α取经验值,在Google的实验中,α取0.4。该平滑技术是针对一句话的关联度进行优化的,并没有对词对的关联度的计算方法进行优化,即存在将相关联的词对的关联度计算为0的情况,从而不能有效生成参考查询语句库,也即不能向用户推荐正确的备选查询语句。
发明内容
本申请实施例提供了一种查询语句的获取方法及服务器,以解决由于相关联的词对存在关联度为0的情况而导致的不能向用户推荐正确的备选查询语句的问题。
第一方面,提供了一种查询语句的获取方法,该方法包括:
对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;
根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;
接收用户在搜索框中输入的查询信息;
根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。
第二方面,提供了一种服务器,所述服务器包括:处理单元、生成单元、接收单元和获取单元;
所述处理单元,用于对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;
所述生成单元,用于根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;
所述接收单元,用于接收用户在搜索框中输入的查询信息;
所述获取单元,用于根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。
本申请实施例提供的查询语句的获取方法及服务器,由于同时获取了第一关联词与所述第二关联词间隔排列的间列次数,因此本申请可以提高词对的关联度,从而本申请的方法能够有效生成参考查询语句库,也即能向用户推荐正确的备选查询语句。
附图说明
图1为本申请实施例一提供的查询语句的获取方法流程图;
图2为本申请实施例二提供的服务器的示意图。
具体实施方式
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
本申请实施例提供的查询语句的获取方法及服务器,由于同时获取了第一关联词与所述第二关联词间隔排列的间列次数,因此本申请可以提高词对的关联度,从而本申请的方法能够有效生成参考查询语句库,也即能向用户推荐正确的备选查询语句。
图1为本申请实施例一提供的查询语句的获取方法流程图。所述方法的执行主体为服务器,如图1所示,所述方法具体包括:
步骤110,对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数。
需要说明的是,语料库中的语料是服务器或者人工预先从网页页面或从服务器中存储的文档中搜集的,其中,该文档可以是人工整理的文档。可以理解的是,该语料库中包括多个词语,其中,第一关联词可以为该语料库中的任意一个词,第二关联词为该语料库中除第一关联词之外的任意一个词。
其中,如图1所示,步骤110中所述在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数,和所述第一关联词的总次数具体包括:
步骤1101,在所述语料库中识别连续排列的所述第一关联词和所述第二关联词,并获取所述第一关联词与所述第二关联词连续排列的连排次数。
其中,在所述语料库中识别连续排列的所述第一关联词和所述第二关联词包括:在所述语料库中识别连续排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,连续排列是指第一关联词与第二关联词之间没有间隔其他词语,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。举例来说,假如语料库中有以下4个句子:
我忘记密码了。
忘记了密码。
忘记我的密码。
我的密码忘记了。
且假如第一关联词为上述语料库中的词语“忘记”,第二关联词为上述语料库中的词语“密码”,那么在第一句中,第一关联词“忘记”与第二关联词“密码”之间没有间隔其他词语,且第一关联词“忘记”为在先的关联词,第二关联词“密码”为在后的关联词;而在第二句和第三句中,第一关联词“忘记”与第二关联词“密码”之间分别间隔了其他词语“了”和“我的”;第四句中,第一关联词“忘记”与第二关联词“密码”之间没有间隔其他词语,但是第一关联词“忘记”为在后的关联词,第二关联词“密码”为在先的关联词。因此在上述语料库中连续排列的并具有顺联的位置顺序的第一关联词与第二关联词只出现在第一句中,即第一关联词与第二关联词连续排列的连排次数为1。
步骤1102,在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词,并获取所述第一关联词与第二关联词间隔排列的间列次数。
其中,无效词也称为噪音,是指出现在第一关联词与第二关联词之间,但不影响整个句子的意思的词语。具体地,步骤1102中在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词包括:在语料库中识别间隔着不大于预先设定的特定个数无效词排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。
举例来说,假如在语料库中有步骤1101中列举的语料库中的四个句子,且假如第一关联词为上述语料库中的词语“忘记”,第二关联词为上述语料库中的词语“密码”,预先设定的特定个数为K,且K>=1,那么在第一句中,第一关联词“忘记”与第二关联词“密码”之间没有间隔其他词语;在第二句中,第一关联词“忘记”与第二关联词“密码”之间间隔了其他词语“了”,而词语“了”不影响整个句子的意思,因此“了”为无效词,即只间隔了一个无效词,且第一关联词“忘记”为在先的关联词,第二关联词“密码”为在后的关联词;在第三句中,第一关联词“忘记”与第二关联词“密码”之间间隔了其他词语“我的”,而词语“我的”不影响整个句子的意思,因此“我的”为无效词,即间隔了两个无效词,且第一关联词“忘记”为在先的关联词,第二关联词“密码”为在后的关联词;第四句中,第一关联词“忘记”与第二关联词“密码”之间没有间隔其他词语。因此在上述语料库中,当K=1时,间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词只出现在第二句中,即第一关联词与第二关联词间隔排列的间列次数为1;而当K=2时,间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词出现在第二句和第三句中,即第一关联词与第二关联词间隔排列的间列次数为2。步骤1103,在所述语料库中识别所述第一关联词,并获取所述第一关联词的总次数。
举例来说,假如在语料库中有步骤1101中列举的语料库中的四个句子,且假如第一关联词为上述语料库中的词语“忘记”,第二关联词为上述语料库中的词语“密码”,第一关联词“忘记”同时出现在四个句子中,因此,在上述语料库中第一关联词的总次数为4。
步骤120,根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库。
需要说明的是,词对的关联度(即两个词语的关联度)是指在一个句子中出现一个词语的情况下,出现第二个词语的概率,通常通过Bigram模型计算词对的关联度。
其中,如图1所示,步骤120中根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度具体包括:
步骤1201,根据所述预先设定的特定个数,设定期望参数。
由于相对于在语料库中第一关联词与第二关联词连续排列的连排次数,间列次数会打一定的折扣,因此,不会将获取到的间列次数直接用于计算第一关联词与第二关联词的关联度,而是需要设定一个期望参数,根据该期望参数,获取间列次数的期望次数,最后将该期望次数用于计算第一关联词与第二关联词的关联度。具体地,根据预先设定的特定个数,设定期望参数。由于预先设定的特定个数越大,说明在获取间列次数时,忽略的无效词的个数越多,相应地,统计的准确度就相对偏低,因此,应该设置一个较低的期望参数;相反,如果预先设定的特定个数偏小,则设置一个较高的期望参数。此处,需要说明的是,期望参数可以具体为一个值,也可以是某个规则。
举例来说,当预先设定的个数为1时,那么期望参数可以直接设定为0.6;当预先设定的个数为5时,那么期望参数根据如下公式设定(即期望参数为一个规则):
其中,K为预先设定的特定个数,β为期望参数。
步骤1202,根据所述期望参数和所述间列次数,获取所述间列次数的期望次数。
具体地,根据如下公式计算期望次数:
F2'=F2·β(公式2)
其中,F2’为期望次数,F2为间列次数,β为期望参数,且0<β<1。
步骤1203,根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联度。
具体地,根据如下公式计算第一关联词与第二关联词关联度:
其中,P为第一关联词与第二关联词的关联度,F1为所述连排次数,F2’为所述期望次数,C(w1)为所述总次数,w1为第一关联词。
举例来说,假如在语料库中有步骤1101中列举的语料库中的四个句子,且假如第一关联词为上述语料库中的词语“忘记”,第二关联词为上述语料库中的词语“密码”,且依照步骤1101中的方法获取的第一关联词与第二关联词连续排列的连排次数F1为1;当K=1时,依照步骤1102中的方法获取的第一关联词与第二关联词间隔排列的间列次数F2为1,且当β设定为0.6时,则F2’=0.6;依照步骤1103中的方法获取的第一关联词的总次数C(w1)为4,则根据公式3可计算得到第一关联词与第二关联词的关联度为0.4。而当不获取F2’时,则第一关联词与第二关联词关联度仅仅为0.25,而实际上“忘记”和“密码”关联度是相当高的,因此本申请由于通过期望参数和获取的间列次数计算获得的期望次数,作为衡量关联度的一个重要指标,可以提高词对的关联度,也即可以增强词对的关联度的反馈程度。从而推荐的备选查询语句可以更加精确。
如上,在获取到第一关联词与第二关联词的关联度之后,并且在第一关联词与第二关联词的关联度大于预先设定的阈值时,将第一关联词和第二关联词,生成参考查询语句库,其中,上述预先设定的阈值是服务器预先设定的,可以根据实际情况设定大小,保存在服务器中。举例来说,假如根据本申请关联度的获取方法,获取到的词对之间的关联度如下所示:
当服务器预先设定的阈值为0.1时,因为上述词对的关联度均大于0.1,则将上述各词对生成参考查询语句“我的密码忘记了”,而当服务器预设定的阈值为0.19时,只有后面两个词对的关联度大于0.19,所以只将后面两个词对生成参考查询语句“密码忘记了”。同理,在将服务器预先设定的所有关联词根据关联词的关联度生成参考查询语句之后,由这些参考查询语句组成参考查询语句库。
步骤130,接收用户在搜索框中输入的查询信息。
需要说明的是,该查询信息可以是用户在搜索框中输入的一个字或者一个词语等。
步骤140,根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。
需要说明的是,相关联的查询语句是指以查询信息开始,且包含与查询信息完全一样的字。举例来说,假如参考查询语句库中有以下4个参考查询语句:
我忘记密码了。
忘记我是谁。
忘了我是谁。
手机解锁图案忘记了。
且假如接收到的搜索框中输入的查询信息为词语“忘记”,第一个和第四个查询语句没有以词语“忘记”开始,所以不能作为与词语“忘记”关联的查询语句;第二个查询语句以词语“忘记”开始,且包含有“忘”和“记”这两个字,所以第二个查询语句为与词语“忘记”关联的查询语句;第三个查询语句只包含有词语“忘记”中的一个字“忘”,不能作为与词语“忘记”关联的查询语句。因此,只将查询语句“忘记我是谁”作为备选查询语句。
如上述实施例所描述的,在生成参考查询语句库后,可用于在搜索时输入查询信息后,根据该查询信息向用户推荐正确的备选查询语句。此外,本申请获取到的第一关联词与第二关联词的关联度还可用于搜索引擎的文档算分中。如步骤120表格中的“密码”和“忘记”,可认为这两个词的关联度是比较高的,则在算分的时候,通过一些规则来检测,在文档中“密码”和“忘记”这两个词的关联度是否也比较高,假如是,可以采取加分措施,类似,对于比较紧密或是不紧密的情况,可以配置一些规则,进行算分上的加分或是减分操作。
需要说明的是,本申请获取到的第一关联词与第二关联词的关联度在分析词与词的关系,或者字与字的关系时也可以运用。例如,在终端的输入法中,用户在输入框中输入一个字时,通常也需要根据该字与已存储的字的关联度,来猜测用户想要输入的词语,并将该猜测的词语作为备选词语推荐给用户。再例如,要对“今天阳光灿烂“这句话进行分词处理,那么就可以根据本申请的方法获取这句话中每两个字之间的关联度,然后根据每两个字之间的关联度对上述这句话做分词处理。举例来说,假如根据本申请的方法获取的“今”和“天”的关联度较高,而“天”和“阳”关联度较低,那么就可以将“天”和“阳”隔断,而“今天”是一个分词。如此类推,该句话可以分成:“今天”、“阳光”、“灿烂”。
上述描述的本申请方法的执行主体是服务器,但并不限于服务器,凡是具有信息处理能力的设备均可以作为本申请方法的执行主体。
本申请实施例提供的查询语句的获取方法,由于同时获取了第一关联词与所述第二关联词间隔排列的间列次数,因此可以提高词对的关联度,从而本申请的方法能够有效生成参考查询语句库,也即能向用户推荐正确的备选查询语句。
图2为本申请实施例二提供的服务器的示意图。所述服务器可以用于执行图1所述的方法。图2中,所述服务器包括:处理单元201、生成单元202、接收单元203和获取单元204。
处理单元201,用于对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数。
可选地,处理单元201具体用于:
在所述语料库中识别连续排列的所述第一关联词和所述第二关联词,并获取所述第一关联词与所述第二关联词连续排列的连排次数;
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词,并获取所述第一关联词与第二关联词间隔排列的间列次数;
在所述语料库中识别所述第一关联词,并获取所述第一关联词的总次数。
可选地,处理单元201还具体用于:在所述语料库中识别连续排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。
可选地,处理单元201还具体用于:在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。
生成单元202,用于根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库。
可选地,生成单元202具体用于:
根据所述预先设定的特定个数,设定期望参数;
根据所述期望参数和所述间列次数,获取所述间列次数的期望次数;
根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联度。
接收单元203,用于接收用户在搜索框中输入的查询信息。
获取单元204,用于根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。
可选地,所述根据所述期望参数和所述间列次数,获取所述间列次数的期望次数包括:
根据如下公式计算期望次数:
F2'=F2·β
其中,F2’为所述期望次数,F2为所述间列次数,β为所述期望参数,且0<β<1。
可选地,所述根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联度包括:
根据如下公式计算所述第一关联词与所述第二关联词的关联度:
其中,P为所述第一关联词与所述第二关联词的关联度,F1为所述连排次数,F2’为所述期望次数,C(w1)为所述总次数,w1为所述第一关联词。
本申请实施例提供的服务器,由于同时获取了第一关联词与所述第二关联词间隔排列的间列次数,因此可以提高词对的关联度,从而本申请的方法能够有效生成参考查询语句库,也即能向用户推荐正确的备选查询语句。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种查询语句的获取方法,其特征在于,所述方法包括:
对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;
根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;
接收用户在搜索框中输入的查询信息;
根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。
2.根据权利要求1所述的方法,其特征在于,所述在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数,和所述第一关联词的总次数包括:
在所述语料库中识别连续排列的所述第一关联词和所述第二关联词,并获取所述第一关联词与所述第二关联词连续排列的连排次数;
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词,并获取所述第一关联词与第二关联词间隔排列的间列次数;
在所述语料库中识别所述第一关联词,并获取所述第一关联词的总次数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度包括:
根据所述预先设定的特定个数,设定期望参数;
根据所述期望参数和所述间列次数,获取所述间列次数的期望次数;
根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联度。
4.根据权利要求2所述的方法,其特征在于,所述在所述语料库中识别连续排列的所述第一关联词和所述第二关联词包括:
在所述语料库中识别连续排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。
5.根据权利要求2所述的方法,其特征在于,所述在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词包括:
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。
6.根据权利要求3所述的方法,其特征在于,所述根据所述期望参数和所述间列次数,获取所述间列次数的期望次数包括:
根据如下公式计算期望次数:
F2'=F2·β
其中,F2’为所述期望次数,F2为所述间列次数,β为所述期望参数,且0<β<1。
7.根据权利要求6所述的方法,其特征在于,所述根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联度包括:
根据如下公式计算所述第一关联词与所述第二关联词的关联度:
其中,P为所述第一关联词与所述第二关联词的关联度,F1为所述连排次数,F2’为所述期望次数,C(w1)为所述总次数,w1为所述第一关联词。
8.一种服务器,其特征在于,所述服务器包括:处理单元、生成单元、接收单元和获取单元;
所述处理单元,用于对语料库中的第一关联词和第二关联词,在所述语料库中识别并获取所述第一关联词与所述第二关联词连续排列的连排次数,间隔排列的间列次数和所述第一关联词的总次数;
所述生成单元,用于根据所述连排次数,所述间列次数和所述总次数,获得所述第一关联词与第二关联词的关联度,并按照所述关联度,将所述第一关联词和所述第二关联词,生成参考查询语句库;
所述接收单元,用于接收用户在搜索框中输入的查询信息;
所述获取单元,用于根据所述查询信息,从所述参考查询语句库中获取相关联的查询语句,以将所述查询语句作为备选查询语句推荐给用户。
9.根据权利要求8所述的服务器,其特征在于,所述处理单元具体用于:
在所述语料库中识别连续排列的所述第一关联词和所述第二关联词,并获取所述第一关联词与所述第二关联词连续排列的连排次数;
在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的所述第一关联词与所述第二关联词,并获取所述第一关联词与第二关联词间隔排列的间列次数;
在所述语料库中识别所述第一关联词,并获取所述第一关联词的总次数。
10.根据权利要求8或9所述的服务器,其特征在于,所述生成单元具体用于:
根据所述预先设定的特定个数,设定期望参数;
根据所述期望参数和所述间列次数,获取所述间列次数的期望次数;
根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联度。
11.根据权利要求9所述的服务器,其特征在于,所述处理单元还具体用于:在所述语料库中识别连续排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。
12.根据权利要求9所述的服务器,其特征在于,所述处理单元还具体用于:在所述语料库中识别间隔着不大于预先设定的特定个数无效词排列的并具有顺联的位置顺序的所述第一关联词与所述第二关联词,其中,所述顺联的位置顺序为所述第一关联词为在先的关联词,所述第二关联词为在后的关联词。
13.根据权利要求10所述的服务器,其特征在于,所述根据所述期望参数和所述间列次数,获取所述间列次数的期望次数包括:
根据如下公式计算期望次数:
F2'=F2·β
其中,F2’为所述期望次数,F2为所述间列次数,β为所述期望参数,且0<β<1。
14.根据权利要求13所述的服务器,其特征在于,所述根据所述期望次数、所述连排次数和所述总次数,获得所述第一关联词与所述第二关联词的关联度包括:
根据如下公式计算所述第一关联词与所述第二关联词的关联度:
其中,P为所述第一关联词与所述第二关联词的关联度,F1为所述连排次数,F2’为所述期望次数,C(w1)为所述总次数,w1为所述第一关联词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410196481.8A CN105095269A (zh) | 2014-05-09 | 2014-05-09 | 查询语句的获取方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410196481.8A CN105095269A (zh) | 2014-05-09 | 2014-05-09 | 查询语句的获取方法及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105095269A true CN105095269A (zh) | 2015-11-25 |
Family
ID=54575723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410196481.8A Pending CN105095269A (zh) | 2014-05-09 | 2014-05-09 | 查询语句的获取方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095269A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573750A (zh) * | 2017-03-07 | 2018-09-25 | 京东方科技集团股份有限公司 | 用于自动发现医学知识的方法和系统 |
CN110276009A (zh) * | 2019-06-20 | 2019-09-24 | 北京百度网讯科技有限公司 | 一种联想词的推荐方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043843A (zh) * | 2010-12-08 | 2011-05-04 | 百度在线网络技术(北京)有限公司 | 一种用于基于目标应用获取目标词条的方法与获取设备 |
CN102346761A (zh) * | 2010-07-27 | 2012-02-08 | 索尼公司 | 信息处理装置、关连语句提供方法和程序 |
-
2014
- 2014-05-09 CN CN201410196481.8A patent/CN105095269A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346761A (zh) * | 2010-07-27 | 2012-02-08 | 索尼公司 | 信息处理装置、关连语句提供方法和程序 |
CN102043843A (zh) * | 2010-12-08 | 2011-05-04 | 百度在线网络技术(北京)有限公司 | 一种用于基于目标应用获取目标词条的方法与获取设备 |
Non-Patent Citations (1)
Title |
---|
卫乃兴: "《词语搭配的界定与研究体系》", 31 January 2002, 上海交通大学出版社 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573750A (zh) * | 2017-03-07 | 2018-09-25 | 京东方科技集团股份有限公司 | 用于自动发现医学知识的方法和系统 |
CN110276009A (zh) * | 2019-06-20 | 2019-09-24 | 北京百度网讯科技有限公司 | 一种联想词的推荐方法、装置、电子设备及存储介质 |
CN110276009B (zh) * | 2019-06-20 | 2021-09-24 | 北京百度网讯科技有限公司 | 一种联想词的推荐方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105243152B (zh) | 一种基于图模型的自动文摘方法 | |
Rastogi et al. | Multiview LSA: Representation learning via generalized CCA | |
Fryzlewicz et al. | Multiple-change-point detection for auto-regressive conditional heteroscedastic processes | |
Gu et al. | Empirical Bayesball remixed: Empirical Bayes methods for longitudinal data | |
US8577670B2 (en) | Adaptive construction of a statistical language model | |
CN103440242A (zh) | 一种基于用户搜索行为的个性化推荐方法和系统 | |
Westgate | A bias correction for covariance estimators to improve inference with generalized estimating equations that use an unstructured correlation matrix | |
US20150324091A1 (en) | Detecting valuable sections in webpage | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
Alih et al. | An outlier-resistant test for heteroscedasticity in linear models | |
Lacal et al. | Estimating and testing nonlinear local dependence between two time series | |
CN104408087A (zh) | 作弊文本的识别方法和系统 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN105045865A (zh) | 一种基于核的协同主题回归标签推荐方法 | |
Elsaied et al. | Robust fitting of INARCH models | |
Atkinson et al. | Robust Bayesian regression with the forward search: theory and data analysis | |
CN105095269A (zh) | 查询语句的获取方法及服务器 | |
Manandhar et al. | Probabilistic hierarchical clustering of morphological paradigms | |
CN109344252B (zh) | 基于优质主题扩展的微博文本分类方法及系统 | |
Sørensen | Simulated likelihood approximations for stochastic volatility models | |
Wang et al. | Functional group bridge for simultaneous regression and support estimation | |
CN103455638A (zh) | 一种结合推理和半自动学习的行为知识提取方法和装置 | |
Fan et al. | Robust variable selection in linear mixed models | |
Cabras et al. | Higher order asymptotic computation of Bayesian significance tests for precise null hypotheses in the presence of nuisance parameters | |
CN115391551A (zh) | 事件检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151125 |
|
RJ01 | Rejection of invention patent application after publication |