CN102737042B

CN102737042B - 建立问句生成模型的方法和装置以及问句生成方法和装置

Info

Publication number: CN102737042B
Application number: CN201110087911.9A
Authority: CN
Inventors: 赵世奇; 王海峰; 方高林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-04-08
Filing date: 2011-04-08
Publication date: 2015-03-25
Anticipated expiration: 2031-04-08
Also published as: CN102737042A

Abstract

本发明提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置，建立的问句生成模型包括：问句模板与搜索请求(query)之间的对应关系以及各query到对应问句模板的概率；其中建立问句模型的方法包括：从搜索日志中，统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系；从统计到的问句中抽取出问句模板，并记录问句模板对应的query；计算各query到对应问句模板的概率。问句生成方法包括：确定用户输入的搜索请求Qr在问句生成模型中的相似query；从相似query在问句生成模型中对应的各问句模板中，为Qr选择问句模板；利用Qr对问句模板进行实例化，得到Qr对应的问句。

Description

建立问句生成模型的方法和装置以及问句生成方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种建立问句生成模型的方法和装置以及问句生成方法和装置。

【背景技术】

问答社区(CQA，Community-based Question Answering)是指诸如百度知道、搜搜问问等由网络用户之间相互提问和回答的知识问答平台。由于其准确性、及时性等优势，近年来得到了迅速的发展。在问答社区中涉及的问答页面通常以提问作为标题，以便与用户在搜索引擎中输入的query进行匹配，为用户提供想要的信息。

在目前的问答社区中有两个问题亟待解决：其一、提高基于问答社区的信息搜索技术的准确率。用户在搜索时心里通常是存在一个清晰明确的问句的，不过出于省时省力的考虑会仅输入几个关键词作为query进行搜索。例如：用户输入“姚明身高”的query时，想问的问句是“姚明的身高是多少？”。对用户输入的query进行搜索匹配时，可能会匹配到虽然命中关键词但与用户实际想问的问句相关性较低的页面。其二、如何根据热点需求自动导入提问，等待用户回答。

基于对上述两个问题的考量，如何利用搜索日志中的query生成需求明确且易于理解的问句是关键。

【发明内容】

有鉴于此，本发明提供了一种建立问句生成模型的方法和装置以及问句生成方法和装置，以便于利用搜索日志中的query生成需求明确且易于理解的问句。

具体技术方案如下：

一种建立问句生成模型的方法，所述问句生成模型包括：问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率；该方法包括：

A、从搜索日志中，统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系；

B、从统计到的问句中抽取出问句模板，并将问句模板以及问句模板对应的query记录在数据库中；

C、计算各query到对应问句模板的概率，并将各query到问句模板的概率记录在所述数据库中。

其中，所述点击的问句为：点击的页面标题中所包含的问句，且该问句包含对应query进行分词处理后得到的各词语。

具体地，所述步骤B中从统计到的问句中抽取出问句模板可以包括：

将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式，并记录变量槽与query进行分词处理后得到的各词语的位置关系，从而得到问句模板。

在所述步骤C中，按照公式计算query Qr_i到问句模板Tp的概率p(Tp|Qr_i)；

其中，c(Qr_i)表示Qr_i在所述搜索日志中出现的次数，c(Tp，Qr_i)表示Qr_i对应到Tp的次数。

一种问句生成方法，该方法包括：

A、确定用户输入的搜索请求Qr在问句生成模型中的相似query，所述问句生成模型包括：问句模板与query之间的对应关系以及各query到对应问句模板的概率；

B、从所述相似query在问句生成模型中对应的各问句模板中，为所述Qr选择问句模板；

C、利用所述Qr对选择的问句模板进行实例化，得到所述Qr对应的问句。

其中，所述步骤A中确定出的相似query与所述Qr具有相同个数的词语，且与所述Qr至少含有一个相同的词语。

所述步骤B具体包括：

B11、将所述相似query对应的各问句模板确定为所述Qr对应的候选问句模板；

B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，确定所述Qr到对应各候选问句模板的概率；

B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。

此时，所述Qr到对应各候选问句模板的概率采用如下公式计算：

f ({Tp}_{j}, Qr) = \log Σ_{i = 1}^{m} p ({Tp}_{j} | {Qr}_{i}) p ({Qr}_{i} | Qr);

其中，f(Tp_j，Qr)为所述Qr到问句模板Tp_j的概率，Qr_i为所述相似query中对应Tp_j的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，m为步骤A确定出的相似query中对应Tp_j的相似query数目，p(Tp_j|Qr_i)为问句生成模型中Qr_i到问句模板Tp_j的概率。

所述步骤B13具体包括：

选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板；或者，

选择所述Qr到对应各候选问句模板的概率值排在前N1个的候选问句模板作为所述Qr对应的问句模板，其中N1为预设的正整数。

此时更进一步地，在所述步骤C之后还包括：

利用所述问句的通顺度，或者，利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度，为所述步骤C得到的各问句打分，选择分值排在前N2个的问句作为最终所述Qr对应的问句，其中N2为预设的正整数。

或者，所述步骤B具体包括：

将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。

此时更进一步地，在所述步骤C之后还包括：

利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合，为所述步骤C得到的各问句打分，选择分值排在前N3个的问句作为最终所述Qr对应的问句，其中N3为预设的正整数。

其中，利用所述Qr到所述问句所使用问句模板的概率，为所述步骤C得到的各问句打分具体为：

按照V(qs)＝f(Tp_c，Qr)，得到问句qs的打分值V(qs)；

其中，f(Tp_c，Qr)所为所述Qr到问句模板Tp_c的概率，m为步骤A确定出的相似query中对应Tp_c的数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

上述问句生成方法中，利用所述问句的通顺度，为所述步骤C得到的各问句打分具体为：

按照得到问句qs的打分值V(qs)；

其中n_qs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语；c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和ti构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数。

利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度，为所述步骤C得到的各问句打分具体为：

按照V(qs)＝λf(Tp_c，Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)；

其中，λ为预设的权值参数，Tp_c为得到qs所使用的问句模板，n_qs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语；c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和t_i构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数；

为所述Qr到问句模板Tp_c的概率，m为步骤A确定出的相似query中对应Tp_c的数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

所述p(Qr_i|Qr)为：

其中为Qr_i中第k个词语Qr_{i_k}和Qr中第k个词语Qr_{_k}之间的相似度。

以上问句生成方法中，所述步骤C具体包括：

按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系，将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽，得到所述Qr对应的问句。

一种建立问句生成模型的装置，所述问句生成模型包括：问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率；该装置包括：日志统计单元、模板抽取单元和概率计算单元；

所述日志统计单元，用于从搜索日志中，统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系；

所述模板抽取单元，用于从所述日志统计单元统计到的问句中抽取出问句模板，并将问句模板以及问句模板对应的query记录在数据库中；

所述概率计算单元，用于计算各query到对应问句模板的概率，并将各问句到对应模板的概率记录在所述数据库中。

所述点击的问句为：点击的页面标题中所包含的问句，且该问句包含对应query进行分词处理后得到的各词语。

其中，所述模板抽取单元具体包括：分词处理子单元、变量槽形成子单元和位置记录子单元；

所述分词处理子单元，用于将所述日志统计单元统计到的query进行分词处理；

所述变量槽形成子单元，用于将所述日志统计单元统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式，以形成问句模板，将问句模板以及问句模板对应的query记录在所述数据库中；

所述位置记录子单元，用于记录变量槽与query进行分词处理后得到的各词语的位置关系至所述数据库中。

所述概率计算单元具体按照公式计算query Qr_i到问句模板Tp的概率p(Tp|Qr_i)；

一种问句生成装置，该装置包括：相似query确定单元、模板选择单元和问句生成单元；

所述相似query确定单元，用于确定用户输入的搜索请求Qr在问句生成模型中的相似query；

所述模板选择单元，用于从所述相似query在问句生成模型中对应的各问句模板中，为所述Qr选择问句模板；

所述问句生成单元，用于利用所述Qr对所述模板选择单元选择的问句模板进行实例化，得到所述Qr对应的问句；

其中，所述问句生成模型包括：问句模板与query之间的对应关系以及各query到对应问句模板的概率。

所述相似query确定单元确定出的相似query与所述Qr具有相同个数的词语，且与所述Qr至少含有一个相同的词语。

所述模板选择单元可以具体包括：候选模板选择子单元、概率计算子单元和模板确定子单元；

所述候选模板选择子单元，用于将所述相似query确定单元确定出的相似query对应的各问句模板确定为所述Qr对应的候选问句模板；

所述概率计算子单元，用于利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，确定所述Qr到对应各候选问句模板的概率；

所述模板确定子单元，用于选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板。

具体地，所述概率计算子单元采用公式计算所述Qr到对应各候选问句模板的概率；

其中，f(Tp_j，Qr)为所述Qr到问句模板Tp_j的概率，Qr_i为所述相似query中对应Tp_j的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，m为所述相似query确定单元确定出的相似query中对应Tp_j的相似query数目，p(Tp_j|Qr_i)为问句生成模型中Qr_i到问句模板Tp_j的概率。

所述模板确定子单元选择所述Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为所述Qr对应的问句模板；或者，

此时更进一步地，该装置还包括：第一问句选择单元，用于利用所述问句的通顺度，或者，利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度，为所述问句生成单元得到的各问句打分，选择分值排在前N2个的问句作为最终所述Qr对应的问句，其中N2为预设的正整数。

具体地，所述第一问句选择单元可以按照V(qs)＝f_LM(qs)或者V(qs)＝λf(Tp_c，Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)；

其中n_qs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语；c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和t_i构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数；

λ为预设的权值参数，Tp_c为得到qs所使用的问句模板，f(Tp_c，Qr)为所述Qr到问句模板Tp_c的概率，m为所述相似query确定单元确定出的相似query中对应Tp_c的相似query数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

或者，所述模板选择单元具体将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。

此时更进一步地，该装置还包括：第二问句选择单元，用于利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合，为所述问句生成单元得到的各问句打分，选择分值排在前N3个的问句作为最终所述Qr对应的问句，其中N3为预设的正整数。

所述第二问句选择单元具体按照V(qs)＝f(Tp_c，Qr)、V(qs)＝f_LM(qs)或者V(qs)＝λf(Tp_c，Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)；

其中，n_qs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语；c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和t_i构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数；

λ为预设的权值参数，Tp_c为得到qs所使用的问句模板，f(Tp_c，Qr)所为所述Qr到问句模板Tp_c的概率，m为所述相似query确定单元确定出的相似query中对应Tp_c的数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

所述

p ({Qr}_{i} | Qr) = Π_{k = 1}^{K} sim (t_{Q r_{i}_k}, t_{Qr_k});

上述问句生成装置中，所述问句生成单元具体按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系，将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽，得到所述Qr对应的问句。

由以上技术方案可以看出，通过本发明能够建立包含问句模板与query之间对应关系以及各query到对应问句模板的概率的问句生成模型，对于用户输入的query，能够利用问句生成模型确定出用户输入的query所对应的相似query，利用该相似query进一步确定出问句模板，并利用该问句模板生成用户输入的query所对应的问句。由于在建立的问句生成模型中相似query之间通常具有相同的需求，且问句生成模型中的问句模板是基于搜索日志中实际存在的问句挖掘出来的，因此通过本发明生成的问句需求明确且易于理解。

【附图说明】

图1为本发明实施例一提供的建立问句生成模型的方法流程图；

图2为本发明实施例二提供的问句生成方法的流程图；

图3为本发明实施例三提供的问句生成方法的流程图；

图4为本发明实施例四提供的建立问句生成模型的装置结构图；

图5为本发明实施例五中提供的一种问句生成装置的结构图；

图6为本发明实施例五中提供的另一种问句生成装置的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的建立问句生成模型的方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：从搜索日志中，统计各用户查询的query以及用户从query对应的搜索结果中点击的问句之间的对应关系。

本步骤实际是从搜索日志中抽取“query-问句”对。即如果用户查询了一个query，且在搜索结果中点击了包含问句标题的页面，就将该query和该问句之间的对应关系抽取出来。

其中，可以限定上述问句包含对query进行分词处理后得到的各词语，也就是说，抽取出的“query-问句”对中，query中的各词语必须包含在问句中。例如：query为“故宫门票”，问句为“故宫门票多少钱”或者“故宫门票在哪买”。

在本步骤中，可以将统计得到的query以及问句之间的对应关系存储为数据表的形式，供以下步骤使用。

步骤102：从统计到的问句中抽取出问句模板，并将问句模板以及问句模板对应的query记录在数据库中。

本步骤可以将问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式，从而得到问句模板。其中，变量槽的个数可以与query进行分词处理后得到的词语的个数一致。例如：query为“故宫门票”，问句为“故宫门票多少钱”，将query进行分词处理后得到的词语为“故宫”和“门票”，将问句中“故宫”和“门票”抽象成变量槽的形式为“【X1】【X2】多少钱”，其中“【X1】”和“【X2】”为两个变量槽。

另外，为了保证在后续实例化的过程中能够保证变量槽填充的正确顺序，在问句模板中同时记录变量槽与query进行分词处理后各词语的位置关系。例如，【X1】对应query进行分词处理后的第一个词语，【X2】对应query进行分词处理后的第二个词语。

步骤103：计算各query到对应问句模板的概率，并将各query到问句模板的概率记录在数据库中。

当完成对搜索日志的统计后，会得到大量的问句模板并记录有各问句模板对应的query有哪些，即同一个问句模板可能对应有多个不同的query。例如：问句模板“【X1】【X2】多少钱”对应的query可以为：“故宫门票”、“奥迪A9”、“诺亚方舟船票”等等。但各query到对应问句模板的概率并不一定相同。

在计算各query到对应问句模板的概率时，可以基于极大似然估计法进行计算：

p (Tp | {Qr}_{i}) = \frac{c (Tp, {Qr}_{i})}{c ({Qr}_{i})} - - - (1)

其中，p(Tp|Qr_i)为query Qr_i到问句模板Tp的概率，c(Qr_i)表示Qr_i在搜索日志中出现的次数，c(Tp，Qr_i)表示Qr_i对应到Tp的次数。

本步骤之后，数据库中会存储有query与问句模板的对应关系，query到对应问句模板的概率，数据库中的存储形式可以如表1所示。需要说明的是，表1仅为数据库存储形式的一个实例，本发明并不限定数据库中存储的具体形式。

表1

query1	问句模板1	query1到问句模板1的概率
			query2	问句模板1	query2到问句模板1的概率
query3	问句模板1	query3到问句模板1的概率
			query1	问句模板2	query4到问句模板2的概率

query3	问句模板2	query5到问句模板2的概率
			...	...	...

至此，问句生成模型建立完毕，该问句生成模型中包含：问句模板与query之间的对应关系、query到对应问句模板的概率。

本发明提供的问句生成方法主要包括：S1、确定用户输入的搜索请求Qr在问句生成模型中的相似query，其中问句生成模型包括：问句模板与query之间的对应关系以及各query到对应问句模板的概率；S2、从相似query在问句生成模型中对应的各问句模板中，为Qr选择问句模板；S3、利用Qr对问句模板进行实例化，得到Qr对应的问句。

具体地，可以采用实施例二和实施例三提供的两种方式实现本发明的上述问句生成方法：

实施例二、

图2为本发明实施例二提供的问句生成方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤201：确定用户输入的query Qr在问句生成模型中的相似query。

在实施例一所示的流程中，离线挖掘出了问句生成模型，在问句生成模型中存在大量的问句模板，利用这些问句模板就可以自动生成用户所输入query对应的问句。但关键在于，在大量的问句模板中如何选择，通常相似query的检索意图也是相似的，它们应该能够实例化相同的问句模板。因此，在确定问句生成模板时，首先确定用户输入的query在问句生成模型中的相似query。

在确定相似query时采用的策略可以为：相似query与Qr具有相同个数的词语，且与Qr至少含有一个相同的词语，按照该策略可以确定出一个Qr的相似query构成的集合。

步骤202：将问句生成模型中相似query对应的各问句模板确定为Qr对应的候选问句模板。

由于在问句生成模型中，步骤201确定出的相似query都对应有问句模板，可以首先将相似query对应的问句模板作为Qr对应的候选问句模板，假设候选问句模板构成的集合为{Tp₁，Tp₂，...，Tp_n}。

步骤203：利用Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，确定Qr到对应各候选问句模板的概率。

本步骤中，Qr到候选问句模板Tp_j的概率f(Tp_j，Qr)可以为：

f ({Tp}_{j}, Qr) = \log Σ_{i = 1}^{m} p ({Tp}_{j} | {Qr}_{i}) p ({Qr}_{i} | Qr) - - - (2)

其中，p(Qr_i|Qr)为Qr与相似query Qr_i的相似度，m为确定出的相似query中对应Tp_j的数目，p(Tp_j|Qr_i)为问句生成模型中Qr_i到问句模板Tp_j的概率，可以利用公式(1)计算。

p(Qr_i|Qr)可以采用以下公式计算：

p ({Qr}_{i} | Qr) = Π_{k = 1}^{K} sim (t_{{Qr}_{i}_k}, t_{Qr_k}) - - - (3)

其中，为Qr_i中第k个词语Qr_{i_k}和Qr中第k个词语Qr_{_k}之间的相似度。两个词语之间的相似度可以基于分布假设(distributional hypothesis)计算得到，即利用语料库统计出两个词语的上下文词所构成的特征向量，将两个特征向量之间的相似度作为两个词语之间的相似度，两个词语之间相似度的计算方法是现有技术，在此不再详细赘述。

步骤204：选择Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为Qr对应的问句模板。

本步骤可以根据步骤203的计算结果，选择概率值达到预设的模板概率阈值的候选问句模板作为Qr对应的问句模板，或者，选择概率值排在前N1个的候选问句模板作为Qr对应的问句模板，其中N1为预设的正整数。

步骤205：利用Qr对选择的问句模板进行实例化，得到Qr对应的问句。

本步骤中的实例化过程实际上就是将Qr进行分词处理后得到的各词语填充至问句模板的变量槽，得到Qr对应的问句。更进一步地，在将Qr进行分词处理后得到的各词语填充至问句模板的变量槽中时，可以按照问句模板记录的变量槽与query进行分词处理后各词语的位置关系进行填充。

举个例子：如果用户输入的Qr为“门票颐和园”，在查找相似query时，相似query中词语的顺序与Qr基本相同，诸如“门票故宫”、“门票北海”等。那么在问句生成模型中，“门票故宫”、“门票北海”等相似query对应的问句模板就是“【X2】【X1】多少钱”，其中变量槽【X2】对应query进行分词处理后的第二个词语，变量槽【X1】对应query进行分词处理后的第一个词语。按照该位置关系进行填充后，得到的问句为“颐和园的门票多少钱”。

由于在选择问句模板时，Qr对应的问句模板可能选择出多个，那么生成的问句也可能是多个，因此更优地，可以进一步执行步骤206从得到的问句中选择出优选的问句。

步骤206：利用得到的各问句的通顺度为得到的各问句打分，选择打分值排在前N2个的问句作为最终Qr对应的问句，其中N2为预设的正整数。

在计算问句的通顺度时，可以基于三元语言模型来计算，利用问句qs的通顺度为问句打分时，打分值V(qs)可以采用如下的公式计算：

V(qs)＝f_LM(qs) (4)

其中，

f_{LM} (qs) = \frac{1}{n_{qs}} Σ_{i = 1}^{n_{qs}} \log (p_{LM} (t_{i} | t_{i - 2} t_{i - 1})) - - - (5)

f_LM(qs)为问句qs的通顺度，n_qs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语。

P_{LM} (t_{i} | t_{i - 2} t_{i - 1}) = \frac{c (t_{i - 2} t_{i - 1} t_{i})}{c (t_{i - 2} t_{i - 1})} - - - (6)

其中，c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和t_i构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数。

另外，在为问句进行打分时，除了利用问句的通顺度之外，还可以结合Qr到问句模板的概率，此时，为问句打分可以采用如下的公式计算：

V(qs)＝λf(Tp_c，Qr)+(1-λ)f_LM(qs) (7)

其中，Tp_c为得到qs所使用的问句模板，f(Tp_c，Qr)采用公式(2)进行计算。λ为预设的权值参数，可以通过训练方式得到，也可以采用经验值。

实施例三、

图3为本发明实施例三提供的问句生成方法的流程图，如图3所示，该方法可以包括以下步骤：

步骤301同步骤201，不再赘述。

步骤302：将问句生成模型中相似query对应的各问句模板确定为Qr对应的问句模板。

步骤303：利用Qr对确定的问句模板进行实例化，得到Qr对应的问句。

本实施例与实施例二不同的是，先确定出相似query对应的所有问句模板都进行实例化，作为Qr对应的候选问句，然后在从候选问句中选择出较优的问句。

对问句模板进行实例化的过程与实施例二中涉及的实例化过程相同，在此不再赘述。

步骤304：利用Qr到问句所使用的问句模板的概率和问句的通顺度中的一种或组合，为步骤303得到的各问句打分，选择打分值排在前N3个的问句作为最终Qr对应的问句，其中N3为预设的正整数。

如果仅利用Qr到问句所使用的问句模板的概率为问句打分，则问句qs的打分值V(qs)可以使用如下公式：

V(qs)＝f(Tp_c，Qr) (8)

其中，Tp_c为得到qs所使用的问句模板，f(Tp_c，Qr)采用公式(2)进行计算。

如果仅利用问句的通顺度为问句打分，则问句qs的打分值V(qs)可以使用公式(4)进行计算。

如果结合利用Qr到问句所使用的问句模板的概率以及问句的通顺度为问句打分，则问句qs的打分值V(qs)可以使用公式(7)进行计算。

以上是对本发明所提供的方法进行的详细描述，下面对本发明所提供的装置进行详细描述。

实施例四、

图4为本发明实施例四提供的建立问句生成模型的装置结构图，如图4所示，该装置可以包括：日志统计单元400、模板抽取单元410和概率计算单元420。

日志统计单元400，用于从搜索日志中，统计各query以及用户从query对应的搜索结果中点击的问句之间的对应关系。

其中，上述点击的问句可以为：点击的页面标题中所包含的问句，且该问句包含对query进行分词处理后得到的各词语。

模板抽取单元410，用于从日志统计单元400统计到的问句中抽取出问句模板，并将问句模板以及记录问句模板对应的query记录在数据库中。

概率计算单元420，用于计算各query到对应问句模板的概率，并将各问句到对应模板的概率记录在上述数据库中。

具体地，模板抽取单元410可以包括：分词处理子单元411、变量槽形成子单元412和位置记录子单元413。

分词处理子单元411，用于将日志统计单元400统计到的query进行分词处理。

变量槽形成子单元412，用于将日志统计单元400统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式，以形成问句模板，将问句模板以及问句模板对应的query记录在上述数据库中。

问句模板中抽象出的变量槽的个数可以与query进行分词处理后得到的词语个数一致。

位置记录子单元413，用于记录变量槽与query进行分词处理后得到的各词语的位置关系至上述数据库中。该位置关系的记录用于在后续利用问句模板生成问句过程中，保证变量槽填充的正确顺序。

概率计算单元在计算各query到对应问句模板的概率时，可以基于极大似然估计法进行计算，即按照公式计算query Qr_i到问句模板Tp的概率p(Tp|Qr_i)。

其中，c(Qr_i)表示Qr_i在搜索日志中出现的次数，c(Tp，Qr_i)表示Qr_i对应到Tp的次数。

通过图4所示结构的装置，可以建立包含问句模板与query之间的对应关系、query到对应问句模板的概率的问句生成模型。

实施例五、

图5为本发明实施例五提供的一种问句生成装置的结构图，该装置使用图4所示装置建立的问句生成模型。如图5所示，该装置可以包括：相似query确定单元500、模板选择单元510和问句生成单元520。

相似query确定单元500，用于确定用户输入的query Qr在问句生成模型中的相似query。

其中，相似query确定单元500确定出的相似query与Qr具有相同个数的词语，且与Qr至少含有一个相同的词语。

模板选择单元510，用于从相似query在问句生成模型中对应的各问句模板中，为Qr选择问句模板。

问句生成单元520，用于利用Qr对模板选择单元510选择的问句模板进行实例化，得到Qr对应的问句。

其中，上述问句生成单元520可以按照问句模板记录的变量槽与query进行分词处理后各词语的位置关系，将Qr进行分词处理后得到的各词语填充至问句模板的变量槽，得到Qr对应的问句。

对于实施例三和实施例四所述的实现方式，该装置可以具体采用两种不同的实现方式，其中一种如图5所示，另一种如图6所示。

首先介绍第一种实现方式，如图5所示，模板选择单元510可以具体包括：候选模板选择子单元511、概率计算子单元512和模板确定子单元513。

候选模板选择子单元511，用于将相似query确定单元500确定出的相似query对应的各问句模板确定为Qr对应的候选问句模板。

概率计算子单元512，用于利用Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，确定Qr到对应各候选问句模板的概率。

模板确定子单元513，用于选择Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为Qr对应的问句模板。

其中，概率计算子单元512在计算Qr到对应各候选问句模板的概率时，可以具体采用公式

f(Tp_j，Qr)为Qr到问句模板Tp_j的概率，Qr_i为相似query中对应Tp_j的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，m为相似query确定单元500确定出的相似query中对应Tp_j的相似query数目，p(Tp_j|Qr_i)为问句生成模型中Qr_i到问句模板Tp_j的概率。

根据概率计算子单元512的概率计算结果，模板确定子单元513可以选择Qr到对应各候选问句模板的概率值达到预设的模板概率阈值的候选问句模板作为Qr对应的问句模板；或者，选择Qr到对应各候选问句模板的概率值排在前N1个的候选问句模板作为Qr对应的问句模板，其中N1为预设的正整数。

在该实现方式中，该装置还可以进一步包括：第一问句选择单元530，用于利用问句的通顺度，或者，利用Qr到问句所使用问句模板的概率和问句的通顺度，为问句生成单元520得到的各问句打分，选择分值排在前N2个的问句作为最终Qr对应的问句，其中N2为预设的正整数。

具体地，第一问句选择单元530可以按照V(qs)＝f_LM(qs)或者V(qs)＝λf(Tp_c，Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)。

其中n_qs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语；c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和t_i构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数。

λ为预设的权值参数，Tp_c为得到qs所使用的问句模板，f(Tp_c，Qr)为Qr到Tp_c的概率，m为相似query确定单元500确定出的相似query中对应Tp_c的相似query数目，Qr_i为相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

第二种实现方式，如图6所示，模板选择单元510具体将问句生成模型中相似query对应的各问句模板确定为Qr对应的问句模板。

此时，该装置还可以包括：第二问句选择单元630，用于利用Qr到问句所使用问句模板的概率和问句的通顺度中的一种或组合，为问句生成单元520得到的各问句打分，选择分值排在前N3个的问句作为最终Qr对应的问句，其中N3为预设的正整数。

其中，第二问句选择单元630可以具体按照V(qs)＝f(Tp_c，Qr)、V(qs)＝f_LM(qs)或者V(qs)＝λf(Tp_c，Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)。

其中，n_qs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语；c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和t_i构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数。

λ为预设的权值参数，Tp_c为得到qs所使用的问句模板，f(Tp_c，Qr)所为Qr到问句模板Tp_c的概率，m为相似query确定单元确定出的相似query中对应Tp_c的数目，Qr_i为相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

在上述两种实现方式中，第一问句选择单元530和第二问句选择单元630所采用的

通过本发明提供的问句生成方法和装置生成用户输入的query对应的问句后，可以用于但不限于以下应用：

其一、能够利用生成的问句实现基于问答社区的信息搜索，从而使得检索的针对性更强，减小无关问句的搜索结果，提高搜索的效率和准确率。

其二、能够将生成的问句自动导入问答社区作为提问，等待用户问答。由于本发明生成的问句需求明确且易于理解，因此能够为问答社区贡献较优的资源。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种建立问句生成模型的方法，其特征在于，所述问句生成模型包括：问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率；该方法包括：

C、计算各query到对应问句模板的概率，并将各query到问句模板的概率记录在所述数据库中；其中，

所述步骤B中从统计到的问句中抽取出问句模板具体包括：

将统计到的问句中所包含对应query进行分词处理后得到的词语抽象成变量槽的形式，并记录变量槽与query进行分词处理后得到的各词语的位置关系，从而得到问句模板；

其中，c(Qr_i)表示Qr_i在所述搜索日志中出现的次数，c(Tp,Qr_i)表示Qr_i对应到Tp的次数。

2.根据权利要求1所述的方法，其特征在于，所述点击的问句为：点击的页面标题中所包含的问句，且该问句包含对应query进行分词处理后得到的各词语。

3.一种问句生成方法，其特征在于，该方法包括：

B、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，从所述相似query在问句生成模型中对应的各问句模板中，为所述Qr选择问句模板；

C、利用所述Qr对选择的问句模板进行实例化，得到所述Qr对应的问句；其中，

所述步骤B具体包括：

B12、利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，确定所述Qr到对应各候选问句模板的概率；其中，所述Qr到对应各候选问句模板的概率采用如下公式计算：

f ({Tp}_{j}, Qr) = \log Σ_{i = 1}^{m} p ({Tp}_{j} | {Qr}_{i}) p ({Qr}_{i} | Qr);

其中，f(Tp_j,Qr)为所述Qr到问句模板Tp_j的概率，Qr_i为所述相似query中对应Tp_j的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，m为步骤A确定出的相似query中对应Tp_j的相似query数目，p(Tp_j|Qr_i)为问句生成模型中Qr_i到问句模板Tp_j的概率；

B13、选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板；其中，所述步骤B13具体包括：

4.根据权利要求3所述的方法，其特征在于，所述步骤A中确定出的相似query与所述Qr具有相同个数的词语，且与所述Qr至少含有一个相同的词语。

5.根据权利要求3所述的方法，其特征在于，在所述步骤C之后还包括：

6.根据权利要求3所述的方法，其特征在于，所述步骤B具体包括：

7.根据权利要求6所述的方法，其特征在于，在所述步骤C之后还包括：

8.根据权利要求7所述的方法，其特征在于，利用所述Qr到所述问句所使用问句模板的概率，为所述步骤C得到的各问句打分具体为：

按照V(qs)＝f(Tp_c,Qr)，得到问句qs的打分值V(qs)；

其中，f(Tp_c,Qr)所为所述Qr到问句模板Tp_c的概率，m为步骤A确定出的相似query中对应Tp_c的数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

9.根据权利要求5或7所述的方法，其特征在于，利用所述问句的通顺度，为所述步骤C得到的各问句打分具体为：

按照

V (qs) = f_{LM} (qs) = \frac{1}{n_{qs}} Σ_{i = 1}^{n_{qs}} \log (p_{LM} (t_{i} | t_{i - 2} t_{i - 1})),

得到问句qs的打分值V(qs)；

其中nqs为问句qs包含的词语数目，t_i为问句qs中包含的第i个词语；c(t_i-2t_i-1t_i)为词语t_i-2、t_i-1和t_i构成的三元组在语料库中出现的次数，c(t_i-2t_i-1)为词语t_i-2、t_i-1构成的二元组在语料库中出现的次数。

10.根据权利要求5或7所述的方法，其特征在于，利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度，为所述步骤C得到的各问句打分具体为：

按照V(qs)＝λf(Tp_c,Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)；

f(Tp_c,Qr)为所述Qr到问句模板Tp_c的概率，m为步骤A确定出的相似query中对应Tp_c的数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

11.根据权利要求3或8所述的方法，其特征在于，所述p(Qr_i|Qr)为：

p ({Qr}_{i} | Qr) = Π_{k = 1}^{K} sim (t_{{Qr}_{i}_k}, t_{Qr_k});

12.根据权利要求3所述的方法，其特征在于，所述步骤C具体包括：

13.一种建立问句生成模型的装置，其特征在于，所述问句生成模型包括：问句模板与搜索请求query之间的对应关系以及各query到对应问句模板的概率；该装置包括：日志统计单元、模板抽取单元和概率计算单元；

所述概率计算单元，用于计算各query到对应问句模板的概率，并将各问句到对应模板的概率记录在所述数据库中；其中，

所述模板抽取单元具体包括：分词处理子单元、变量槽形成子单元和位置记录子单元；

所述位置记录子单元，用于记录变量槽与query进行分词处理后得到的各词语的位置关系至所述数据库中；

14.根据权利要求13所述的装置，其特征在于，所述点击的问句为：点击的页面标题中所包含的问句，且该问句包含对应query进行分词处理后得到的各词语。

15.一种问句生成装置，其特征在于，该装置包括：相似query确定单元、模板选择单元和问句生成单元；

所述模板选择单元，用于利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，从所述相似query在问句生成模型中对应的各问句模板中，为所述Qr选择问句模板；

其中，所述问句生成模型包括：问句模板与query之间的对应关系以及各query到对应问句模板的概率；其中，

所述模板选择单元具体包括：候选模板选择子单元、概率计算子单元和模板确定子单元；

所述概率计算子单元，用于利用所述Qr与相似query的相似度以及问句生成模型中相似query到相似query对应各问句模板的概率，确定所述Qr到对应各候选问句模板的概率；其中，所述概率计算子单元采用公式计算所述Qr到对应各候选问句模板的概率；

其中，f(Tp_j,Qr)为所述Qr到问句模板Tp_j的概率，Qr_i为所述相似query中对应Tp_j的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，m为所述相似query确定单元确定出的相似query中对应Tp_j的相似query数目，p(Tp_j|Qr_i)为问句生成模型中Qr_i到问句模板Tp_j的概率；

所述模板确定子单元，用于选择所述Qr到对应各候选问句模板的概率满足预设条件的候选问句模板作为所述Qr对应的问句模板；其中，

所述模板确定子单元

16.根据权利要求15所述的装置，其特征在于，所述相似query确定单元确定出的相似query与所述Qr具有相同个数的词语，且与所述Qr至少含有一个相同的词语。

17.根据权利要求15所述的装置，其特征在于，该装置还包括：第一问句选择单元，用于利用所述问句的通顺度，或者，利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度，为所述问句生成单元得到的各问句打分，选择分值排在前N2个的问句作为最终所述Qr对应的问句，其中N2为预设的正整数。

18.根据权利要求17所述的装置，其特征在于，所述第一问句选择单元具体按照V(qs)＝f_LM(qs)或者V(qs)＝λf(Tp_c,Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)；

λ为预设的权值参数，Tp_c为得到qs所使用的问句模板，f(Tp_c,Qr)为所述Qr到问句模板Tp_c的概率，m为所述相似query确定单元确定出的相似query中对应Tp_c的相似query数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

19.根据权利要求15所述的装置，其特征在于，所述模板选择单元具体将问句生成模型中所述相似query对应的各问句模板确定为所述Qr对应的问句模板。

20.根据权利要求19所述的装置，其特征在于，该装置还包括：第二问句选择单元，用于利用所述Qr到所述问句所使用问句模板的概率和所述问句的通顺度中的一种或组合，为所述问句生成单元得到的各问句打分，选择分值排在前N3个的问句作为最终所述Qr对应的问句，其中N3为预设的正整数。

21.根据权利要求20所述的装置，其特征在于，所述第二问句选择单元具体按照V(qs)＝f(Tp_c,Qr)、V(qs)＝f_LM(qs)或者V(qs)＝λf(Tp_c,Qr)+(1-λ)f_LM(qs)，得到问句qs的打分值V(qs)；

λ为预设的权值参数，Tp_c为得到qs所使用的问句模板，f(Tp_c,Qr)所为所述Qr到问句模板Tp_c的概率，m为所述相似query确定单元确定出的相似query中对应Tp_c的数目，Qr_i为所述相似query中对应Tp_c的相似query，p(Qr_i|Qr)为Qr与Qr_i的相似度，p(Tp_c|Qr_i)为问句生成模型中Qr_i到问句模板Tp_c的概率。

22.根据权利要求18或21所述的装置，其特征在于，所述

p ({Qr}_{i} | Qr) = Π_{k = 1}^{K} sim (t_{{Qr}_{i}_k}, t_{Qr_k});

23.根据权利要求15所述的装置，其特征在于，所述问句生成单元具体按照所述问句模板记录的变量槽与query进行分词处理后各词语的位置关系，将所述Qr进行分词处理后得到的各词语填充至所述问句模板的变量槽，得到所述Qr对应的问句。