CN104516949B

CN104516949B - 网页数据处理方法和装置、查询处理方法及问答系统

Info

Publication number: CN104516949B
Application number: CN201410754337.1A
Authority: CN
Inventors: 李兴建; 王丽杰; 韦豪杰; 廖梦; 马艳军; 刘占; 刘占一
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-10
Filing date: 2014-12-10
Publication date: 2018-12-25
Anticipated expiration: 2034-12-10
Also published as: CN104516949A

Abstract

本发明实施例公开了一种网页数据处理方法和装置、查询处理方法及问答系统。所述网页数据处理方法包括：对离线网页中的句子进行语义结构分析，以得到浅层知识；计算所述浅层知识的置信度；根据所述置信度对所述浅层知识建库，得到浅层知识库。提高了查询结果的准确性。

Description

网页数据处理方法和装置、查询处理方法及问答系统

技术领域

本发明实施例涉及数据搜索技术领域，尤其涉及一种网页数据处理方法和装置、查询处理方法及问答系统。

背景技术

随着互联网技术的蓬勃发展，人们的生活和工作越来越离不开网络搜索。

目前，网络搜索主要由搜索引擎来实现。搜索引擎对于查询，搜索出的结果都是包含有查询语句部分或全部内容的网页。对于问答类型的查询即查询语句为问题的查询，这样的搜索结果很难给出正确的答案。如用户需求并不是寻找和query的语句字面相关的网页，而是希望搜索引擎直接回答出问题的答案，如：“宝马是哪个国家的”、“新版笑傲江湖任盈盈给令狐冲疗伤的曲子”。针对这样的查询，目前的搜索引擎只能给出和查询问题相关的网页，比较理想的结果是返回相关的问答网页，但仍然需要用户点击进入网页自行寻找答案，得到答案的效率低。同时由于互联网中的网页数据难以保证很高的权威性，甚至存在大量的垃圾和噪音，使得用户自行寻找答案的可靠性也降低。

发明内容

有鉴于此，本发明实施例提出一种网页数据处理方法和装置、查询处理方法及问答系统，以提高查询结果的准确性。

第一方面，本发明实施例提供了一种网页数据处理方法，包括：

对离线的网页中的每个句子进行结构语义分析，得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据；

确定所述浅层知识的置信度；

根据所述置信度对所述浅层知识建库，得到浅层知识库。

第二方面，本发明实施例还提供了一种查询处理方法，包括：

对输入的查询语句进行语法分析，得到所述查询语句的结构语义表示；

根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，其中，所述浅层知识库根据置信度对浅层知识建库得到，所述浅层知识为包含有实体信息以及实体之间关系的数据；

对所述候选答案进行合理性验证，得到最终答案。

第三方面，本发明实施例还提供了一种网页数据处理装置，包括：

语义分析模块，用于对离线的网页中的每个句子进行结构语义分析，得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据；

置信度确定模块，用于确定所述浅层知识的置信度；

建库模块，用于根据所述置信度对所述浅层知识建库，得到浅层知识库。

第四方面，本发明实施例还提供了一种查询处理装置，包括：

语义分析模块，用于对输入的查询语句进行语法分析，得到所述查询语句的结构语义表示；

候选答案确定模块，用于根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，其中，所述浅层知识库根据置信度对浅层知识建库得到，所述浅层知识为包含有实体信息以及实体之间关系的数据；

验证模块，用于对所述候选答案进行合理性验证，得到最终答案。

第五方面，本发明实施例还提供了一种问答系统，包括：上述网页数据处理装置和上述查询处理装置；

所述网页数据处理装置用于离线建立浅层知识库；

所述查询处理装置用于对输入的查询语句进行语义分析，根据语义分析结果从所述网页数据处理装置建立的浅层知识库中获得候选答案，并对候选答案进行验证，得到最终答案。

本发明实施例提供的网页数据处理方法和装置、查询处理方法及问答系统，通过对离线网页中的句子进行语义结构分析，得到浅层知识，并根据所述置信度对所述浅层知识建立浅层知识库，能够为搜索引擎提供高质量的基础数据，用于搜索的答案，使得搜索引擎对于用户查询的问题，基于建立的浅层知识库进行答案搜索，能够给出用户查询的问题的精确答案，从而提高了查询结果的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的网页数据处理方法的流程图；

图2是本发明第二实施例提供的网页数据处理方法中语义结构分析的流程图；

图3是本发明第三实施例提供的网页数据处理方法中语义结构分析的流程图；

图4a是本发明第四实施例提供的网页数据处理方法的流程图；

图4b是本发明第四实施例提供的网页数据处理方法中置信度计算的流程图；

图5是本发明第五实施例提供的网页数据处理方法的流程图；

图6a是本发明第六实施例提供的查询处理方法的流程图；

图6b是本发明第六实施例提供的查询处理方法中结构语义表示的示意图；

图7是本发明第七实施例提供的查询处理方法中语法分析的流程图；

图8是本发明第八实施例提供的查询处理方法中语法分析的流程图；

图9是本发明第九实施例提供的查询处理方法中候选答案确定的流程图；

图10是本发明第十实施例提供的查询处理方法中合理性验证的流程图；

图11是本发明第十一实施例提供的网页数据处理装置的结构图；

图12是本发明第十二实施例提供的查询处理装置的结构图；

图13a是本发明第十三实施例提供的问答系统的结构图；

图13b是本发明第十三实施例提供的问答系统的功能示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

本发明实施例提供的网页数据处理方法可由网页数据处理装置执行，网页数据处理装置可以是搜索引擎的一个功能模块，也可以是任意一个具有计算和数据处理功能及存储功能的电子设备。

第一实施例

参见图1，本实施例提供的网页数据处理方法包括：操作11至操作13。

操作11中，对离线的网页中的每个句子进行结构语义分析，得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据。

所述离线的网页可以是预先收集的，离线的网页数据。所述离线的网页中包含大量的文本数据，并且，所述文本数据由不同的句子组成。在本实施例中，对所述离线的网页中包含的文本数据中的句子进行结构语义分析，从而得到浅层知识。

所述结构语义分析是指对所述文本数据中的句子，通过分词、词性标注以及依存句法分析，对所述句子进行理解，以得到关于所述句子的浅层知识。

所述浅层知识包括所述句子中存在的实体信息，以及这些语义实体相互之间的语义关系。例如，通过对句子“亚太经济合作组织会10月在北京召开”的结构语义分析，得到了浅层知识“亚太经济合作组织会议，10月，北京，召开”。在该浅层知识中，包含了“亚太经济合作组织会议”、“10月”、“北京”以及“召开”四个实体信息。而且，所述浅层知识还进一步的标明了四者之间的语义关系的主谓关系。例如，“亚太经济合作组织会议”与“召开”之间是主谓关系，“召开”与“10月”之间的动状关系，“召开”与“北京”之间是动状关系。

需要说明的是，所述浅层知识中包含的实体的文本表现形式可以不唯一。例如，“亚太经济合作组织会议”与“亚太经合组织会议”所指代的是同一个实体。

操作12中，确定所述浅层知识的置信度。

离线的网页中包含的文本数据可能会包含有虚假信息，另外，在对文本数据进行结构语义分析处理时，可能会出现分析错误。因此，从所述文本数据中获取到的浅层知识并不可靠，需要对所述浅层知识计算置信度。

具体的，可以通过条件概率和归一化点互信息综合计算出所述浅层知识的置信度。所述条件概率是指在所述浅层知识库中一个或一个以上实体信息出现时，目标实体信息出现的概率。例如，对于浅层知识<诸葛亮，杀，华佗>，如果实体“杀”和实体“华佗”都出现时，目标实体“诸葛亮”出现的概率是0.05％，则该浅层知识的条件概率为0.05％。

所述归一化点互信息考虑了实体之间的关系的概率信息。例如，在浅层知识库中，实体“亚太经济合作组织会议”和实体“召开”作为主谓结构同时出现的概率为60％，则实体“亚太经济合作组织会议”与实体“召开”之间的归一化点互信息为60％。

操作13中，根据所述置信度对所述浅层知识建库，得到浅层知识库。

其中，置信度的作用主要是滤除浅层知识中置信度较低的浅层知识。优选的，可以对所述浅层知识中包含的不同实体分别进行建库。例如，可以对其中包含实体“中国”的浅层知识进行建库，得到关于实体“中国”的浅层知识库，而对其中包含实体“日本”的浅层知识另外单独建库，得到关于实体“日本”的浅层知识库。

本实施例提供的网页数据处理方法，通过对离线的网页中的每个句子进行结构语义分析，得到浅层知识，并通过确定所述浅层知识的置信度，以及根据所述置信度对所述浅层知识建库，得到浅层知识库，实现了对离线的网页中的数据的结构化处理，根据离线的网页形成了浅层知识库，为搜索引擎提供准确的查询结果提供了高质量的基础数据。

示例性的，上述对离线的网页中的每个句子进行结构语义分析，包括：

对每个句子进行分词、实体词识别、词性标注以及依存分析；

根据依存分析结果，对片段结构进行识别；

片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系。

示例性的，上述根据依存分析结果，对片段结构进行识别之后，片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之前，还包括：

补充片段缺失成分。

示例性的，上述片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之后，还包括：

对所述细化后的关系进行语义关系合理性验证。

示例性的，上述确定所述浅层知识的置信度之前，所述方法还包括：

对所述浅层知识进行低频知识或低质量过滤、冗余知识过滤和噪音知识过滤中的至少一种过滤。

示例性的，上述确定所述浅层知识的置信度，包括：

通过条件概率和归一化点互信息综合计算出知识的置信度。

示例性的，上述根据所述置信度对所述浅层知识建库，包括：

将所述浅层知识的置信度与预先设定的阈值进行比较；

对滤除置信度小于所述阈值的浅层知识后的剩余浅层知识建库。

示例性的，上述对滤除置信度小于所述阈值的浅层知识后的剩余浅层知识建库，包括：

以所述剩余浅层知识中的每个元素为键key，建立倒排索引，倒排索引中存储每条剩余浅层知识的标识ID；

或者，以所述剩余浅层知识的ID为key，以所述浅层知识的正文和置信度为key的值，建立剩余浅层知识的键值对。

例如，可以对剩余的每条浅层知识分配一个标识ID，然后以所述浅层知识中的每个元素为键，并以该条浅层知识的标识ID为内容，建立所述浅层知识的倒排索引，从而完成对所述剩余浅层知识的建库。还可以以所述剩余浅层知识的ID为键，同时以所述剩余浅层知识的正文和置信度为该键所对应的值，建立所述浅层知识的键值对，从而完成对所述剩余浅层知识的建库。这样，通过以浅层知识中的元素为键，以浅层知识的标识ID为内容，为浅层知识建立倒排索引，或者为所述浅层知识建立以浅层知识的ID为键，以正文及置信度为内容的键值对，实现了对置信度较高的浅层知识建立浅层知识库，为基于所述浅层知识向用户提供准确的问题答案提供了基础。

第二实施例

本实施例以上述实施例为基础提供了对离线的网页中的每个句子进行结构语义分析的一种技术方案，该技术方案包括：对每个句子进行分词、实体词识别、词性标注以及依存分析；根据依存分析结果，对片段结构进行识别；片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系。

参见图2，对离线的网页中的每个句子进行结构语义分析包括：操作21至操作23。

操作21中，对每个句子进行分词、实体词识别、词性标注以及依存分析。

所述分词是将构成句子的完整文本切分为词语的过程。通过分词操作，各个句子中的文本被分隔成为单个的词语。

构成句子的词语包含实体词和非实体词。所述实体词包括句子中的名词、动词以及形容词。而所述非实体词包括句子中的连词以及介词。例如，介词“在”是非实体词，而名词“北京市”则是实体词。在完成对所述句子的分词之后，根据词性从所述句子中的词语中识别实体词。

进行实体词识别后，对识别出的实体词标注词性，也就是执行词性标注操作。

完成上述操作之后，对标注了词性的实体词进行依存分析。所述依存分析的目标在于获取所述实体词之间的语义依存关系。对实体词进行依存分析的结果是由所述句子中的实体词构成的依存关系。例如，在句子“宗教工作取得显著成绩”中，经过依存分析，实体词“成绩”依存于实体谓词“取得”。

操作22中，根据依存分析结果，对片段结构进行识别。

句子是由不同的片段构成的，每个片段具有它自身的片段结构。例如，在句子“我国将推动人民币国际化”中包含片段“推动人民币国际化”，而该片段是一个动宾结构。

在操作21中，通过对句子的依存分析得到了句子中各个词语之间的依存关系。考虑所述依存关系以及句子中词语的词性，即得到所述句子中的片段的片段结构。例如，在识别句子的片段“取得显著成绩”的片段结构时，由于实体词“成绩”依存于实体词“取得”，并且实体词“取得”是动词，实体词“成绩”是名词，所以片段“取得显著成绩”是动宾结构。

操作23中，片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分之间的关系。

从句子中识别出属于不同片段结构的多个片段以后，通过对所述片段内部的成分细化，获取到句子的核心成分。所述核心成分是标识句子的核心议题的句子中的实体。例如，句子“马布里从2010年开始在中国打球”的核心成分是“马布里”。所述核心成分可以是句子的主语、谓语或者宾语。所述核心成分还可以是句子的主语、谓语或者宾语的一部分。

由于已经获得了组成句子的各个片段，以及各个片段的片段结构，通过对各个片段内部成分的细化就可以得到所述句子的核心成分。

除此之外，通过对句子的片段内部成分的细化，还需要确定核心成分与句子中其他成分之间的关系。

本实施例通过对每个句子进行分词、实体词识别、词性标注以及依存分析，根据依存分析结果对片段结构进行识别，片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分之间的关系，实现了对离线的网页中文本数据的语义结构分析。

第三实施例

本实施例以上述第二实施例为基础，给出了对离线的网页中的每个句子进行语义结构分析的另一技术方案。本技术方案中，根据依存分析结果，对片段结构进行识别之后，片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之前，还包括：补充片段缺失成分；片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之后，还包括：对所述细化后的关系进行语义关系合理性验证。

参见图3，对离线的网页中的每个句子进行语义结构分析包括：操作31至操作35。

操作31中，进行基础词/句法分析。

对句子部分进行分词、实体词识别、词性标注以及依存分析；其中实体词识别后，对于引号以及书名号括起来的部分进行合并作为一个专名，主要是该部分语义上是一个整体，若分为多个术语(term)进行依存分析，经常会造成依存分析以该整体中一个term作为其他外部term的核心节点；其中词性标注后处理，是对专名识别结果、引号中实体、书名号中实体被识别为非NN或者NR词性的修改，将其改成NR，防止依存分析中以该term作为核心根节点；依存分析后处理，主要是将依存分析树状结果转成一维数组可以表达的形式，同时找出核心节点的孩子节点，方便进行片段识别。

操作32中，片段识别。

根据依存分析结果，对片段结构进行识别，结果包括实体、名词谓语、主宾结构、主谓宾结构、主谓结构、动宾结构、动词片段、时间状语、其他方式状语、以及未识别片段等。

操作33中，补充片段缺失成分。

由于句子中有成分省略的情况，而且也有句子中的关键成分被代词指代的情况，所以对句子进行按照分词、实体词识别、词性标注以及依存分析而获得的实体词中会有片段缺失的情况。对于这种情况，需要将缺失的成分补充至所述句子片段。

补充时，主要对动宾、主宾、名词谓语等结构补充主语、谓语；对于知识类网页(像维基百科、百度百科)，对于主语不是相关实体的主谓宾、主谓等结构，都需要补充主语和实体的关系；若该主语和实体关系不大，可以认为该句子抽取的语义关系意义不大，可以去除。

具体的，可以通过对上下文的分析获取缺失的成分，然后将缺失的成分补充至所述句子片段。例如，对于句子“三是推动人民币国际化”，通过对上下文的分析，获取到缺失的成分是“中国政府”。获取到上述缺失的成分之后，将所述缺失的成分补充至所述句子中的句子片段，形成完成的句子片段“中国政府推动”。

操作34中，片段内部成分细化。

主要是对主谓宾等3个部分进行内部细化，得到句子的核心成分，以及其他成分与核心成分间的关系。

操作35中，对所述细化后的关系进行语义关系合理性验证。

为了避免在上述的结构语义分析过程中出现错误，对细化后的关系进行语义关系合理性验证。

具体的，可以通过对细化后的关系中各个成分的词性，以及该成分与核心成分之间的关系，验证所述细化后的关系的语义关系合理性。例如，如果在与核心谓词之间是动宾关系的宾语的位置，如果出现了动词，则所述细化后的关系在语义上是不合理的。

本实施例通过根据依存分析结果，对片段结构进行识别之后，片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之前，补充片段缺失成分，以及在片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之后，对所述细化后的关系进行语义关系合理性验证，使得通过结构语义分析获得的浅层知识更为准确，进而使得搜索引擎根据所述浅层知识给出的答案更为精确。

第四实施例

本实施例以上述实施例为基础，给出了网页数据处理方法的另一种技术方案。该技术方案中，在所述置信度确定模块确定所述浅层知识的置信度之前，还包括：对所述浅层知识进行低频知识或低质量过滤、冗余知识过滤和噪音知识过滤中的至少一种过滤。

参见图4a，网页数据处理方法包括：操作4a1至操作4a4。

操作4a1中，对离线的网页中的每个句子进行结构语义分析，得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据，详见第一实施例中的说明。

操作4a2中，对所述浅层知识进行低频知识或低质量过滤、冗余知识过滤和噪音知识过滤中的至少一种过滤。

所述低频知识是指用户极少会查询的知识。所述低频知识过滤是指滤除所述浅层知识中的低频知识的过滤操作。具体的，可以通过统计所述浅层知识库中浅层知识的访问频次，并根据统计得到的所述访问频次对所述浅层知识进行过滤。

所述低质量知识是指从低质量网页中提取的浅层知识。所述低质量过滤时将所述浅层知识中从低质量网页中提取的浅层知识滤除的过滤操作。具体的，可以通过统计用户对查询结果网页的满意度发现低质量网页，并根据发现的低质量网页对所述浅层知识执行低质量过滤。

所述冗余知识是指自身结构不完整的浅层知识。例如，一条浅层知识中包含动宾结构，但是该动宾结构的宾语缺失，则该浅层知识为冗余知识。所述冗余知识过滤是从所述浅层知识中过滤冗余知识的过滤操作。具体的，可以通过对浅层知识自身的结构进行识别，从而完成对所述浅层知识的冗余知识过滤。

所述噪音知识是指信息含量低，不容易让用户感兴趣的知识。例如，如果一条浅层知识中仅包含常见的词汇，不能给用户提供有用的信息，则该浅层知识是噪音知识。所述噪音知识是从所述浅层知识中过滤噪音知识的过滤操作。具体的，可以通过对所述浅层知识中实体词的识别，从所述浅层知识中过滤噪音知识。

操作4a3中，确定所述浅层知识的置信度。

置信度与上述合理性验证不同。上述合理性验证是针对每个句子中抽取出的语义关系，在该句子环境中进行验证，所以一条浅层知识在不同的句子中，其验证结果可能不同，有的被保留，有的被舍弃。

置信度计算是先对所有句子中抽取出的浅层知识进行去重合并，然后从全局的角度计算去重后的每条知识的置信度，所以一条浅层知识只有一个置信度。而最终进入浅层知识库中的数据由该置信度计算来保证，也就是说置信度计算要负责对单条结果合理性验证过程中出现的错误进行补救。

置信度计算要解决的问题主要包括以下几个方面：

1)全网网页中网页质量会存在差异，很多网页中包含嵌入广告和推广信息等噪音，这会使得基础词/句法分析错误，导致抽取出冗余或者噪音知识。

2)知识抽取系统本身还不能保证百分之百的准确率，基础的词/句法分析错误、知识的各个成分抽取错误等都可能会导致最终抽取的知识不完整，或者是语义丢失。

3)自然语言文本中具有不可避免的不确定性以及歧义性，导致知识抽取的结果中会存在噪音、歧义甚至是知识的冲突。

为了解决以上三个方面的问题，通过置信度计算来提高浅层知识库中知识的质量。

如图4b所示，置信度计算包括：操作4b1-操作4b4。

操作4b1中，预处理。

预处理是为了解决上面所述的第一类问题，对知识库中的低频知识和低质量网页中抽取的知识进行统一的过滤。知识的频率表示了知识在全网中被提及的次数，对于那些非常低频的知识，可以认为是人们极少使用的知识，可以过滤掉。网页质量越高，网页中的文本越具有权威性，反之，低质量网页中包含嵌入广告和推广信息等噪音，使得基础词法/句法分析错误，导致抽取出错误的知识。

操作4b2中，冗余知识过滤。

其中，冗余知识是指不包含完整语义的知识，这样的知识存在知识库中不仅没有价值，而且会影响检索的速度。这部分的工作主要包括：过滤结构不完整的知识，例如一个以及物动词作为谓词的知识，如果其不包含宾语，这条知识的结构就是不完整的；过滤包含代词的知识，由于代词实际指代的对象不在知识中，包含代词的知识同样可以认为是不完整的。

操作4b3中，噪音知识过滤。

其中，噪音知识是指知识结构完整，但却不包含让人感性趣的知识价值，这样的知识存在知识库中，会降低检索的准确率。噪音知识过滤的主要工作包括：过滤关系不匹配的知识，例如人名和非人名处于并列关系的知识；知识区分性的衡量，如果知识中的元组是非常常见的词汇，例如“一起”，这样的知识不具有较高的区分性，可以去除，通常情况下，知识中专有名词越多，知识的区分性也越大；利用权威知识做验证，可以认为从结构化网页抽取的知识和百科网页中抽取的知识是权威知识。

操作4b4中，知识的置信度计算。

在以上三种方式处理后，仍然有很多知识存在着歧义或者冲突，例如知识库中同时存在<曹操,杀,华佗>和<诸葛亮,杀,华佗>，后者是网页中的错误文本抽取的到的结果，可以通过条件概率、归一化点互信息等特征综合计算出知识的置信度，最终使得正确知识具有一个较高的全局置信度值。

操作4a4中，根据所述置信度对所述浅层知识建库，得到浅层知识库，详见上述第一实施例中的说明。

本实施例通过在确定所述浅层知识的置信度之前，对所述浅层知识进行低频知识或低质量过滤、冗余知识过滤和噪音知识过滤中的至少一种过滤，保证了所述浅层知识库中存储的浅层知识的质量，为基于所述浅层知识库中的浅层知识向用户提供准确的问题答案提供了基础。

第五实施例

本实施例以上述实施例为基础，给出了网页数据处理方法的又一种技术方案。该技术方案中，根据所述置信度对所述浅层知识建库，包括：将所述浅层知识的置信度与预先设定的阈值进行比较；对滤除置信度小于所述阈值的浅层知识后的剩余浅层知识建库。

参见图5，本实施例提供的网页数据处理方法包括：操作51至操作55。

操作51中，对离线的网页中的每个句子进行结构语义分析，得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据，详见上述第一实施例中的说明。

操作52中，确定所述浅层知识的置信度，详见上述第一实施例中的说明。

操作53中，将所述浅层知识的置信度与预先设定的阈值进行比较。

在本实施例中，对所述浅层知识库中浅层知识的置信度预先设定一个阈值。在确定所述浅层知识的置信度之后，将所述浅层知识的置信度与所述预先设定的阈值进行比较。

操作54中，滤除置信度小于所述阈值的浅层知识。

将所述浅层知识的置信度与所述预先设定的阈值比较以后，过滤掉置信度小于所述阈值的浅层知识，而保留置信度大于所述阈值的浅层知识。

操作55中，对滤除置信度小于所述阈值的浅层知识后的剩余浅层知识建库，得到浅层知识库，详见上述第一实施例中的说明。

在本实施例中，仅对经过上述过滤操作的浅层知识进行建库，进一步提高了浅层知识库的置信度，从而使得查询结果的准确性更高。

本实施例通过将所述浅层知识的置信度与预先设定的阈值进行比较，以及滤除置信度小于所述阈值的浅层知识，保证了所述浅层知识库中的浅层知识的置信度较高，进一步提高了搜索引擎向用户提供的答案的准确性。

第六实施例

本实施例提供的查询处理方法可由查询处理装置或搜索引擎执行。其中，查询处理装置可以是搜索引擎的一个功能模块。

参见图6a，本实施例提供的查询处理方法包括：操作6a1至操作6a3。

操作6a1中，对输入的查询语句进行语法分析，得到所述查询语句的结构语义表示。

一般来说，用户输入的查询语句是一个疑问句。例如，用户输入到搜索引擎的搜索框内的查询语句可以是“三岁小孩吃什么补钙”。

搜索引擎接收到所述查询语句以后，对所述查询语句进行基础词法句法分析，即得到所述查询语句的结构语义表示。所述结构语义表示是用来表征用户输入的查询语句的语义结构的语义结构。

参见图6b，在所述结构语义表示中包括疑问词6b1以及所述查询语句的其他成分6b2。优选的，在所述结构语义表示中还可以包括表示所述疑问词6b1所指代的内容类型的类型词6b3。而且，除了所述疑问词6b1、所述查询语句的其他成分6b2，所述结构语义表示还包括所述疑问词6b1与所述其他成分6b2之间的语义关系的语义关系属性6b4。

可以看出，query的结构化语义表示，和针对句子的结构语义关系抽取，有相似之处，都是利用基础的词句法分析，获得query/句子中关键结点间的关系。而此处对query的结构化理解和前述的结构语义关系分析不同之处在于：首先，query是问句，不同于一般的陈述句，

即query中答案处是缺失的，替代其出现的可能是疑问词，如“什么”，“哪里”等，也有可能是疑问词+类型词，如“什么食物”、“哪个城市”。这个答案缺失的片段我们称为focus，focus的使用意义是：将focus替换成答案，即可将问题转化为一个合理的陈述句。如上query：三岁小孩吃什么补钙，focus即为画横线处“什么”，将其替换为某候选答案如“鱼”，则可将其转化为一个合理陈述句：三岁小孩吃鱼补钙。

操作6a2中，根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，其中，所述浅层知识库根据置信度对浅层知识建库得到，所述浅层知识为包含有实体信息以及实体之间关系的数据，具体详见上述网页数据处理方法实施例。

所述浅层知识库是对离线的网页中的文本数据执行网页数据处理方法而得到的，有不同浅层知识组成的浅层知识集合。所述浅层知识库中存储有置信度较高的浅层知识。而所述浅层知识是包含有实体信息以及所述实体之间的关系的数据。

得到所述查询语句的结构语义表示之后，根据所述结构语义表示从所述浅层知识库中获取候选答案。优选的，可以利用所述结构语义表示中包含的所述查询语句的句子成分，查询所述浅层知识库，从所述浅层知识库中召回与所述查询语句对应的浅层知识。在召回浅层知识之后，通过对所述浅层知识的分析，抽取候选答案。

操作6a3中，对所述候选答案进行合理性验证，得到最终答案。

从所述浅层知识库中得到候选答案之后，对所述候选答案一一进行合理性验证，以从所述候选答案中获取最终答案。优选的，可以通过对所述查询语句的分析获得所述最终答案的个数，再根据所述个数从候选答案中抽取最终答案。

本实施例提供的查询处理方法，通过对输入的查询语句进行语法分析，得到所述查询语句的结构语义表示，根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，以及对所述候选答案进行合理性验证，得到最终答案，实现了基于高质量的基础数据对用户查询的问题进行答案搜索，并最终给出答案，有效地提高了查询的准确性。

示例性的，上述对输入的查询语句进行语法分析，得到所述查询语句的结构语义表示，包括：

找到所述查询语句中的焦点，并识别出所述查询语句的答案类型；

根据所述查询语句的答案类型，对所述查询语句采用语法分析技术，得到所有和所述焦点相关的浅层知识；

确定和所述焦点相关的浅层知识之间的关系。

示例性的，上述确定和所述焦点相关的浅层知识之间的关系之前，本发明实施例提供的查询处理方法还包括：

对所有和所述焦点相关的浅层知识进行实体类型识别、实体扩展和关系识别。

示例性的，上述根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，包括：

根据所述查询语句的结构语义表示召回候选的浅层知识片段；

从所述候选的浅层知识片段中确定有所述查询语句的候选答案。

示例性的，上述对所述候选答案进行合理性验证，得到最终答案，包括：

确定答案个数；

根据答案个数对所述候选答案进行合理性验证，得到最终答案。

第七实施例

本实施例以第六实施例为基础，给出了查询处理方法中语法分析的一种技术方案。该技术方案中，对输入的查询语句进行语法分析，得到所述查询语句的结构语义表示，包括：找到所述查询语句中的焦点，并识别出所述查询语句的答案类型；根据所述查询语句的答案类型，对所述查询语句采用基础词句法分析技术，得到所有和所述焦点相关的浅层知识；确定和所述焦点相关的浅层知识之间的关系。

参见图7，本实施例提供的对查询语句的语法分析包括：操作71至操作73。

操作71中，找到所述查询语句中的焦点，并识别出所述查询语句的答案类型。

所述焦点是指疑问句的特征成分，或者说是最有可能与答案有关的问题信息或成分。根据问题的焦点可以推断疑问句所要寻找的答案实体类型。所述焦点可能在所述查询语句中明示，也可能隐含在所述查询语句中。

找到所述查询语句中的焦点之后，可以根据所述焦点识别出所述查询语句的答案类型。例如，对查询语句“三岁小孩吃什么补钙”，它的答案类型是食物或者药物。

操作72中，根据所述查询语句的答案类型，对所述查询语句采用语法分析技术，得到所有和所述焦点相关的浅层知识。

确定所述查询语句的答案类型之后，根据所述答案类型对所述查询语句执行基础词法句法分析。需要说明的是，对所述查询语句进行的基础词句法分析的结果可以是数量大于一条的浅层知识。例如，通过对查询语句“三岁小孩吃什么补钙”的基础词句法分析，可以得到<三岁小孩，吃，什么>以及<什么,补钙>两条浅层知识。

操作73中，确定和所述焦点相关的浅层知识之间的关系。

通过对所述查询语句进行基础词句法得到的浅层知识之间可以是逻辑与的关系。例如，在对查询语句“三岁小孩吃什么补钙”的查询语句的基础词句法分析得到的两条浅层知识中，也就是浅层知识<三岁小孩，吃，什么>以及浅层知识<什么,补钙>，二者是逻辑与的关系。

当浅层知识之间是逻辑与的关系，在根据所述浅层知识从所述浅层知识库中获取候选答案时，所述候选答案必须同时满足对所述查询语句进行基础词句法分析而得到的浅层知识。只有这样，才能保证获取的候选答案的正确性。因此，在得到与所述焦点相关的浅层知识之后，需要确定所述浅层知识之间的关系。

当然，在对所述查询语句进行基础词句法分析得到的浅层知识中，所述浅层知识之间的关系可以是逻辑或的关系。

在确定了所述浅层知识之间的关系之后，根据确定的所述浅层知识之间的关系生成所述查询语句的结构语义表示。

本发明实施例通过找到所述查询语句中的焦点，并识别出所述查询语句的答案类型，根据所述查询语句的答案类型，对所述查询语句采用基础词句法分析技术，得到所有和所述焦点相关的浅层知识，以及确定和所述焦点相关的浅层知识之间的关系，实现了对输入的查询语句进行的基础词法句法分析。

第八实施例

本实施例以第七实施例为基础，给出了查询处理方法中语法分析的另一种技术方案。该技术方案中，确定和所述焦点相关的浅层知识之间的关系之前，还包括：对所有和所述焦点相关的浅层知识进行实体类型识别、实体扩展和关系识别。

参见图8，本实施例提供的对查询语句进行语法分析包括：操作81至操作84。

操作81中，找到所述查询语句中的焦点，并识别出所述查询语句的答案类型。

操作82中，根据所述查询语句的答案类型，对所述查询语句采用基础词句法分析技术，得到所有和所述焦点相关的浅层知识。

上述操作81和82详见上述第七实施例中的说明。

操作83中，对所有和所述焦点相关的浅层知识进行实体类型识别、实体扩展和关系识别。

获取大与所述焦点相关的浅层知识之后，对所述浅层知识进行补充扩展。所述补充扩展包括对所述浅层知识的实体类型识别、实体扩展和关系识别。对所述浅层知识进行补充扩展的目的在于，获取与焦点相关的尽量多的浅层知识，以扩大对候选答案的召回范围。

举例来说，对于浅层知识<三岁小孩，吃，什么>，可以通过实体扩展获得相关的浅层知识<儿童，吃，什么>，以保证扩大对候选答案的召回范围。

操作84中，确定和所述焦点相关的浅层知识之间的关系，详见上述第七实施例中的说明。

本实施例通过在确定和所述焦点相关的浅层知识之间的关系之前，对所有和所述焦点相关的浅层知识进行实体类型识别、实体扩展和关系识别，对所述浅层知识进行了补充扩展，扩大了对候选答案的召回范围。

第九实施例

本实施例以上述第六实施例为基础，给出了查询处理方法中确定候选答案的一种技术方案。该技术方案中，根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，包括：根据所述查询语句的结构语义表示召回候选的浅层知识片段；对所述候选的浅层知识片段进行分析，确定有所述查询语句的候选答案。

参见图9，本实施例提供的候选答案确定包括：操作91及操作92。

操作91中，根据所述查询语句的结构语义表示召回候选的浅层知识片段。

所述结构语义表示用户输入的查询语句的语义结构的语义结构。利用所述结构语义表示查询通过对离线的网页进行分析而建立的离线的浅层知识库，从而召回候选的浅层知识片段。

操作92中，从所述候选的浅层知识片段中确定有所述查询语句的候选答案。

从所述浅层知识库召回候选的浅层知识片段之后，对所述候选的浅层知识片段进行分析，从而确定所述查询语句的候选答案。

对所述浅层知识片段进行的分析是依据与所述查询语句的结构语义表示而进行的。优选的，根据所述查询语句的结构语义表示确定所述候选答案在所述浅层知识片段中所在的位置，进而从所述浅层知识片段中确定候选答案。

在确定候选答案时，需要考虑所述候选答案所对应的对所述查询语句进行分析而得到的浅层知识之间的关系。当所述浅层知识之间的关系是逻辑与时，对不同浅层知识对应的候选答案求逻辑与，得到候选答案集合；当所述浅层知识之间的关系是逻辑或时，对不同浅层知识对应的候选答案求逻辑与，得到候选答案集合。

本实施例通过根据所述查询语句的结构语义表示召回候选的浅层知识片段，以及从所述候选的浅层知识片段中确定有所述查询语句的候选答案，实现了根据所述查询语句的结构语义表示确定所述查询语句的候选答案。

第十实施例

本实施例以上述查询处理方法实施例为基础，给出了对候选答案进行合理性验证的一种技术方案。该技术方案中，对所述候选答案进行合理性验证，得到最终答案，包括：确定答案个数；根据答案个数对所述候选答案进行合理性验证，得到最终答案。

参见图10，本实施例提供的合理性验证包括：操作101及操作102。

操作101中，确定答案个数。

可以理解的是，对用户输入的查询语句，其对应的答案的个数不同。例如，对用户输入的查询语句“中国古代四大美女是谁”的查询语句，其对应的答案的个数是四。

一般来说，对于从所述查询语句字面可以判断答案个数的查询语句。因此，可以依据对所述查询语句的分析得到所述答案个数。

操作102中，根据答案个数对所述候选答案进行合理性验证，得到最终答案。

如果生成的候选答案的个数与所述答案个数相符，则将所述候选答案作为最终答案；如果生成的候选答案的个数与所述答案个数不符，则不将所述候选答案作为最终答案。

本实施例通过确定答案个数，根据答案个数对所述候选答案进行合理性验证，并得到最终答案，实现了对提交给用户的答案的合理性验证，保证了对用户的查询语句给出准确的答案。

第十一实施例

参见图11，本实施例提供的网页数据处理装置包括：语义分析模块111、置信度确定模块112以及建库模块113。

所述语义分析模块111用于对离线的网页中的每个句子进行结构语义分析，得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据。

所述置信度确定模块112用于确定所述浅层知识的置信度。

所述建库模块113用于根据所述置信度对所述浅层知识建库，得到浅层知识库。

优选的，所述语义分析模块111具体用于：

根据依存分析结果，对片段结构进行识别；

优选的，所述语义分析模块111还用于：

在根据依存分析结果，对片段结构进行识别之后，片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之前，补充片段缺失成分。

优选的，所述语义分析模块111还用于：在片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之后，对所述细化后的关系进行语义关系合理性验证。

优选的，所述网页数据处理装置还包括：过滤模块。

所述过滤模块用于在所述置信度确定模块112确定所述浅层知识的置信度之前，对所述浅层知识进行低频知识或低质量过滤、冗余知识过滤和噪音知识过滤中的至少一种过滤。

优选的，所述置信度确定模块112具体用于：

通过条件概率和归一化点互信息综合计算出知识的置信度。

优选的，所述建库模块113包括：比较子模块以及建库子模块。

所述比较子模块用于将所述浅层知识的置信度与预先设定的阈值进行比较；

所述建库子模块用于对滤除置信度小于所述阈值的浅层知识后的剩余浅层知识建库。

优选的，所述建库子模块具体用于：

或者，以所述剩余浅层知识的ID为key，以所述浅剩余层知识的正文和置信度为key的值，建立剩余浅层知识的键值对。

上述网页数据处理装置可执行本发明任意实施例所提供的网页数据处理方法，具备与网页数据处理方法中各操作相对应的功能模块和有益效果。

第十二实施例

参见图12，本实施例提供的查询处理装置包括：语义分析模块121、候选答案确定模块122以及验证模块123。

所述语义分析模块121用于对输入的查询语句进行基础词法句法分析，得到所述查询语句的结构语义表示。

所述候选答案确定模块122用于根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，其中，所述浅层知识库根据置信度对浅层知识建库得到，所述浅层知识为包含有实体信息以及实体之间关系的数据。

所述验证模块123用于对所述候选答案进行合理性验证，得到最终答案。

优选的，所述语义分析模块121具体用于：

根据所述查询语句的答案类型，对所述查询语句采用基础词句法分析技术，得到所有和所述焦点相关的浅层知识；

确定和所述焦点相关的浅层知识之间的关系。

优选的，所述语义分析模块121还用于：

在所述确定和所述焦点相关的浅层知识之间的关系之前，对所有和所述焦点相关的浅层知识进行实体类型识别、实体扩展和关系识别。

优选的，所述候选答案确定模块122具体用于：

优选的，所述验证模块123具体用于：

确定答案个数；

上述查询处理装置可执行本发明任意实施例所提供的查询处理方法，具备与查询处理方法中各操作相对应的功能模块和有益效果。

第十三实施例

参见图13a，本实施例提供的问答系统包括：网页数据处理装置131以及查询处理装置132。

所述网页数据处理装置131可为上述任意实施例提供的网页数据处理装置，用于离线建立浅层知识库。

所述查询处理装置132可为上述任意实施例提供的查询处理装置，用于对输入的查询语句进行语义分析，根据语义分析结果从所述网页数据处理装置131建立的浅层知识库中获得候选答案，并对候选答案进行验证，得到最终答案。

参见图13b，其中，网页数据处理装置131用于实现离线知识挖掘，查询处理装置132用于基于网页数据处理装置131挖掘的浅层知识库实现在线答案检索。

上述问答系统可执行本发明任意实施例所提供的网页数据处理方法和查询处理方法，具备与网页数据处理方法和查询处理方法中各操作相对应的功能模块和有益效果。

上述方法、装置及系统实施例提供的查询处理方法一方面对查询的问题回答精准。因为这里的答案抽取并不仅仅是简单的字面相关性计算，而是涉及到结构语义层次，对query中缺失的部分进行补全。同时离线挖掘所得的浅层知识经过了全局置信度计算，能够极大减轻个别句子的词法句法分析错误带来的不利影响。另一方面可以降低用户的浏览成本。该技术对于一些结构相对复杂的问答类query，可以直接返回给用户精准答案，不需要用户点开网页寻找答案。又一方面可以降低搜索引擎等系统的成本。因为系统存储的只是经过大量离线挖掘计算后保留下的精准知识，这一数据的量级远远小于未经处理的原始网页库，同时检索的计算成本也相应降低。本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同或相似的部分互相参见即可。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页数据处理方法，其特征在于，包括：

对离线的全网网页中的每个句子进行结构语义分析，对语义关系进行合理性验证后得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据；

确定所述浅层知识的置信度，其中，通过条件概率和归一化点互信息综合计算出所述浅层知识的置信度；

根据所述置信度对所述浅层知识建库，得到浅层知识库。

2.根据权利要求1所述的方法，其特征在于，对离线的网页中的每个句子进行结构语义分析，包括：

根据依存分析结果，对片段结构进行识别；

3.根据权利要求2所述的方法，其特征在于，根据依存分析结果，对片段结构进行识别之后，片段内部成分细化，得到句子的核心成分，以及其他成分与核心成分间的关系之前，还包括：

补充片段缺失成分。

4.根据权利要求1-3任一项所述的方法，其特征在于，确定所述浅层知识的置信度之前，所述方法还包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，根据所述置信度对所述浅层知识建库，包括：

将所述浅层知识的置信度与预先设定的阈值进行比较；

6.根据权利要求5所述的方法，其特征在于，对滤除置信度小于所述阈值的浅层知识后的剩余浅层知识建库，包括：

或者，以所述剩余浅层知识的ID为key，以所述剩余浅层知识的正文和置信度为key的值，建立剩余浅层知识的键值对。

7.一种查询处理方法，其特征在于，包括：

根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，其中，所述浅层知识库根据通过条件概率和归一化点互信息综合计算出的置信度对浅层知识建库得到，所述浅层知识为包含有实体信息以及实体之间关系的数据，通过对离线的全网网页中的每个句子进行结构语义分析，对语义关系进行合理性验证后得到；

对所述候选答案进行合理性验证，得到最终答案。

8.根据权利要求7所述的方法，其特征在于，对输入的查询语句进行语法分析，得到所述查询语句的结构语义表示，包括：

确定和所述焦点相关的浅层知识之间的关系。

9.根据权利要求8所述的方法，其特征在于，确定和所述焦点相关的浅层知识之间的关系之前，所述方法还包括：

10.根据权利要求7或8所述的方法，其特征在于，根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，包括：

11.根据权利要求7或8所述的方法，其特征在于，对所述候选答案进行合理性验证，得到最终答案，包括：

确定答案个数；

12.一种网页数据处理装置，其特征在于，包括：

语义分析模块，用于对离线的全网网页中的每个句子进行结构语义分析，对语义关系进行合理性验证后得到浅层知识，其中，所述浅层知识为包含有实体信息以及实体之间关系的数据；

置信度确定模块，用于确定所述浅层知识的置信度，其中，通过条件概率和归一化点互信息综合计算出所述浅层知识的置信度；

13.根据权利要求12所述的装置，其特征在于，所述语义分析模块具体用于：

根据依存分析结果，对片段结构进行识别；

14.根据权利要求13所述的装置，其特征在于，所述语义分析模块还用于：

15.根据权利要求12-14任一项所述的装置，其特征在于，所述装置还包括：

过滤模块，用于在所述置信度确定模块确定所述浅层知识的置信度之前，对所述浅层知识进行低频知识或低质量过滤、冗余知识过滤和噪音知识过滤中的至少一种过滤。

16.根据权利要求12-14任一项所述的装置，其特征在于，所述建库模块包括：

比较子模块，用于将所述浅层知识的置信度与预先设定的阈值进行比较；

建库子模块，用于对滤除置信度小于所述阈值的浅层知识后的剩余浅层知识建库。

17.根据权利要求16所述的装置，其特征在于，所述建库子模块具体用于：

18.一种查询处理装置，其特征在于，包括：

候选答案确定模块，用于根据所述查询语句的结构语义表示，从浅层知识库中得到候选答案，其中，所述浅层知识库根据通过条件概率和归一化点互信息综合计算出的置信度对浅层知识建库得到，所述浅层知识为包含有实体信息以及实体之间关系的数据，通过对离线的全网网页中的每个句子进行结构语义分析，对语义关系进行合理性验证后得到；

19.根据权利要求18所述的装置，其特征在于，所述语义分析模块具体用于：

确定和所述焦点相关的浅层知识之间的关系。

20.根据权利要求19所述的装置，其特征在于，所述语义分析模块还用于：

21.根据权利要求18或19所述的装置，其特征在于，所述候选答案确定模块具体用于：

22.根据权利要求18或19所述的装置，其特征在于，所述验证模块具体用于：

确定答案个数；

23.一种问答系统，其特征在于，包括：上述权利要求12-17任一项所述的网页数据处理装置和上述权利要求18-22任一项所述的查询处理装置；

所述网页数据处理装置用于离线建立浅层知识库；