CN101751420A

CN101751420A - 语义脉络文档查询方法

Info

Publication number: CN101751420A
Application number: CN200810236750A
Authority: CN
Inventors: 尹文生
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2008-12-10
Filing date: 2008-12-10
Publication date: 2010-06-23

Abstract

一种基于语义的文档查询方法，应用于文档查询特别是网络文档查询。它将查询用户输入的查询要求转换成查询语义脉络，即将查询输入语句分解成不同关键词及其结构关系；然后对被查询文档按照关键词、句子分隔符和代词进行标记，并根据代词指代关系将其替换为对应的关键词；最后按照用户对这些关键词及其结构关系的设定对查询语义脉络与被测试文档中的每条句子进行匹配测试，只要被测试文档中存在一条与查询语义脉络匹配的句子，则该文档就是用户所需文档。这种方法不需要对文档进行复杂的语义分析，开发难度低，与目前通用的关键词查询使用方法一致。

Description

语义脉络文档查询方法

技术领域

本发明涉及一种通过语义分析进行文档查询的计算机检索方法，尤其是能在文档查询中将用户输入的查询要求转换成表现用户文档查询意图的语义脉络语句，然后利用该语义脉络进行检索，与传统的关键词查询和语义网络、本体论等语义查询方法不同。

背景技术

基于计算机的文档即电子文档查询特别是网页文档查询在人们的日常生活和科学研究工作中起着重要作用。目前，虽然已有许多著名的查询引擎，如百度、搜狐等，为文档的查询提供了极大的方便，但是由于网络上的文章数量众多，用户在搜索文档时往往出现信息迷向、信息过载和词不匹配等问题，大大降低查全率和查准率。造成这些问题的根本原因是自然语言的极端复杂性，因为查询系统既很难理解用户的查询意图，也很难理解被查询文档的语义。例如，在自然语言中常常出现同义、多义、近义和上下义等语义现象。同义就是指多个词具有相同含义，多义就是指一个词具有多个含义，近义一般指不同动词或形容词之间所具有相似语义的现象，但其他类型的词也有近义关系。对动词而言，严格的同义词一般少见，总存在一定的差异，例如纪念孙中山、怀念孙中山等。上下义一般指名词之间具有的上下分类关系，下位词可以继承上位词所有特征/性质，例如car和vehicle之间是上下义关系，下位词car具有上位词vehicle的所有特征和性质。

传统的文档查询方法是一种关键词搜索方法，即采用倒排索引文件以及布尔查询技术和基于关键词的机械式的符号匹配。这种方法的特点就是使用用户输入的关键词及其布尔组合去对整个文档进行搜索，如果文档中存在用户输入的关键词并符合布尔关系则返回该文档。由于检索是针对全文的，所以许多无关的文档都被检索出来。由于网络文档数量惊人，检索结果可以达到成千上万篇，查准率相当低。显然，让用户阅读这样多的文档以获取有用知识是非常困难的。如果输入较多的关键词并将其作为一个整体进行搜索，虽然查准率很高，检索出来的几乎全部是用户所需的，但由于自然语言使用的灵活多变，查全率将很低。

为了解决这些问题，开展基于语义的文档查询工作意义非常重大，因此这方面的工作非常热门。语义网络的核心思想是通过对文档中语义的理解来选取符合用户查询意图的文档。这方面的工作主要在两个层次展开。第一个层次是进行关键词查询的扩展，即通过对查询输入进行分析，将输入的关键词进行同义词、近义词和上下义词的扩展，获得更加多的查询输入，然后用这些查询输入代替原来的查询输入进行关键词查询，将所有的关键词查询结果返回给用户。第二个层次就是将文档进行语义分析，用某种语义结构来描述文档。当用户输入查询要求时首先将查询输入转换成一种语义描述，然后与文档的语义结构进行匹配。如果两者实现了匹配，则该文档就是用户要查找的文档。

基于语义文档查询的研究工作取得了非常明显的成果。首先第一个层次的工作是必不可少的，因为为了解决自然语言中的同义、多义、近义和上下义等语义现象，必须建立语义知识词典，包括通用语义知识词典和领域语义知识词典。通用语义知识词典适用范围极其广泛，可大大提高知识的共享性，降低重复劳动。例如WordNet、HowNet等著名的语义知识辞典已经存储了大量公用的知识。而领域语义知识词典则将语义知识限制于某一具体领域即建立领域语义知识词典，这样可以有效地克服通用语义知识词典建立的难度。但是第一层次的工作主要是传统关键词查询功能的一种简单扩展，不能克服查询结果过于庞大的缺点，所以尽管技术上已不存在难度，但是在常用的查询引擎上并没有发现这样的功能。

第一个层次的工作是第二个层次工作的基础，第二个层次的工作更能反映用户的查询意图。目前比较流行的语义网络、本体论都是这个层次工作所研究的主要对象，取得了非常显著的成绩。从理论上说，第二个层次的工作的完成可以实现语义查询，但是需要以下基础：

●完备的语义知识字典

●用户查询输入的语义转换

●所有文档的语义化处理

●语义匹配的准确性和快速性

尽管目前已经存在非常强大的语义处理工具，但由于网页数量巨大、自然语言无法实现机器理解，所以第二个层次的工作成果目前只能停留在实验室中，实用价值比较小。

通过在国家知识产权局专利检索网页上使用关键词“查询”、“语义”等进行检索，没有发现本发明所提出的语义脉络文档查询方法。

主要参考文献：

[1]Rijsbergen Van.A new theoretical framework for information retrieval[C].In Proceedings of1986 ACM Confefence on Research and Development in Information Retrieval，1986：194-200.

[2]李莉，高庆狮。一种基于语义单元的查询扩展方法。计算机科学，2008，35(2)：201-204

[3]Sparck J K.Automatic Keyword Classifieation for Information Retfieval.London：Butterworths，1971

[4]Deerwester S，Dumai S T，Furnas G W，et al.Indexing by latent semantic analysis.Journalof ACM Transactions On Information Systems，2000，18(1)：79-112

[5]Jing Y，Croft W B An association thesaurus for information retrieval.In：Proceedings of theIntelligent Multimedia Information Retrieval Systems，1994：146-160

[6]Qiu Y，Freib H.Concept based query expansion.In：Korfhage R，Rasmussen E M，WillettP.eds.Proceedings of the 16th Annual International ACM SIGIR Co nference on Research andDevelopment in Information Retrieval.New York：ACM Press，1993：160-169

[7]Rocchio Jr JJ.Relevance feedback in information retrieval In：Salton G.ed.The SMARTRetrieval System：Experiments in Automatic Document Processing.Englewood aiffS，NewJersey：Prentice-Hall，1971：313-323

[8]黄名选，严小卫，张师超。查询扩展技术进展与展望。计算机应用与软件，2007，24(11)：1-4

[9]Gerard Sahon，James Allan，Chris Buckley.Automatic structuring and retrieval of large textfiles[J].CACM，1994，37(2)：97.

[10]Chen H，Hsu P，Orwig L，et al.Automatic concept classification of text from electronicmeetings[J].Communications of the ACM，1994，37(10)：56.

[11]Chen H.Concept Space Approach to addressing the vocabulary problem in scientificinformation retrieval：An experiment on the worm community system[J].J American Socinformation Science，1997，48(6)；17.

[12]Navigli R.Velardi P An analysis of ontology-based query expansion strategies.In：Proceedingsof the 14th European Co nference on Machine Learning，Workshop on Adaptive TextExtraction and Mining，Cavtat Dubrovnik，Croatia，2003

[13]顾榕，王小平，曹立明一种基于潜在语义分析的查询扩展算法.计算机工程与应用，2004(18)：23-25

[14]岳文，陈治平，林亚平.基于查询扩展和分类的信息检索算法.系统仿真学报，2006，18(7)：1926-1929

[15]崔航，文继荣，李敏强.基于用户日志的查询扩展统计模型.软件学报，2003，14(9)：1593-1599

[16]张映海，何中市。基于关键词与语义概念结合的信息检索研究。计算机应用，2006，26(12)：2964-2966

[17]邓汉成，王瑛，王敏芳。从检索实例看查全率与查准率之间的关系。情报学报，2000，19(3)：237-241

发明内容

为了克服现有的基于计算机的文档查询方法中的基于关键词查询方法查准率较低和基于语义查询方法不成熟的不足，本发明采用本发明人提出的一种语义脉络概念，依据这种概念提出了语义脉络文档查询方法。该方法首先将用户的查询输入转换成查询语义脉络，然后用该语义脉络与被测试的文档进行语义脉络匹配，不仅可以有效地让用户描述自己的查询意图，而且由于不用进行文档的准确语义分析，所以具有很快的查询速度，在查全率降低比较少或不降低的情况下得到查准率很高的查询结果。

本发明采用的语义脉络概念是：如果一个句子r所有的组成成分(表现为构成句子语法成分的词或词组)，在另一个句子s中存在，并且对应词或词组的词类相同，则称句子r是句子s的语义脉络。其中，如果s中所有组成部分的顺序都与r中对应部分相同，则称r和s为有序语义脉络匹配，否则称r和s为无序语义脉络匹配。

本发明所采用的技术方案如图1所示：

步骤101：在接受用户输入的查询词时约定用户输入的关键词是按照规定的顺序和要求输入的，即用户以合乎逻辑的词、短语或句子进行输入，并且设定用户语义脉络匹配要求，从而反映他的查询意图；

步骤102：将用户的输入分解为基本的词，即关键词。根据预先建立的同义词、近义词和上下义词电子词典，对关键词的同义、近义和上下义语义关系进行关键词扩展，将所有的同义词、近义词和上下义词加入到对应的关键词集合中；

步骤103：对每一个文档，标记出所有的句子、关键词、代词；

步骤104：对所有代词进行代词分析，如果一个代词所替代的词在关键词集合中，就将它用对应的关键词取代，否则将其丢弃；

步骤105：以每条句子为单位，进行语义脉络的匹配检测，如果该句子中存在与用户输入的查询语义脉络相同的词，而且词的类型和顺序也是相一致的，则文档就被选为查询结果文档。

本发明所带来的有益效果是，既可以使用户采用与现有关键词查询方法一致的方法来表达自己的查询意图，操作简单方便，避免复杂的语义分析，又可以有效地提高文档查询的查准率，减少无关文档的阅读量。因为语义脉络是以语句的形式反映用户的查询意图，用户对语义脉络查询的多次使用就意味著一种知识获取的操作，对于用户从网页文档中获取知识有重要帮助。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的流程图。

图2是查询子句界面的示意图。

图3是代词分析与替换流程图。

具体实施方式

如图1所示，以汉语电子文档作为说明对象，根据本发明所揭示的语义脉络文档查询方法的流程图和实现方案为：

步骤101：获得用户的查询意图。用户的查询意图是通过输入一串词或词组来实现的。实现该目的的界面称为查询子句界面。图2是一个参考的查询子句界面，主要由一个查询输入编辑框(201)、3个选择按钮(202，203，204)、同义词操作按钮(205，209)、近义词操作按钮(206，210)、上下义词操作的按钮(207，211)和查询操作按钮(208)组成。用户在编辑框(201)中输入查询词(各个词以空格分隔)，并且约定用户输入的关键词的顺序是有意义的，反映了他的查询意图。例如用户如果输入一个关键词，则等同于传统的关键词查询；如果用户输入多个词则等同于输入一个词组，它们之间存在顺序关系；如果用户输入的多个词包含并且仅包含一个动词或形容词时，则等同于输入一个句子。全部三种情况获得的输入统称为查询语义脉络。将查询语义脉络的各个关键词按顺序用一个对象数组记录，其中对象的属性值包括：关键词编码、词类等，同时用一个结构体记录查询语义脉络的句子结构关系。

可选按钮(202，203，204)选择语义脉络匹配方式，即选择查询语义脉络与被测试文档匹配的测试要求。它是通过查询语义脉络与被测试文档中的每条语句进行比较来进行的。图2中仅列出了3个可选按钮，其中可选按钮(202)表明无序匹配，即只要在被测试文档中同一句子出现用户输入的关键词即认为匹配成功；可选按钮(203)表明严格有序匹配，只有文档中存在一条包含查询语义脉络中所有词的句子，而且这些词的词类相同，其顺序也完全相同才算匹配；可选按钮(204)表明可以认可被动句，即主谓宾和宾主谓都是一样的。还可以根据需要设置其他可选按钮，以适应语义脉络中谓词的变化。也可以设置可选按钮，将当前句子所属的段落标题也并入当前句子中。用户在输入查询语句时，还可在并列的主语或宾语成分中间加入特殊符号“|”、“^”以表明这些主语或宾语是否需要同时存在。

如果用户需要查看编辑框(201)中各词的同义词、近义词、上下义词，可以点击按钮(205，206，207)打开对话框进行查看。如果用户需要增加或删除编辑框(201)中各词的同义词、近义词、上下义词，可以点击按钮(209，210，211)打开对话框进行增加或删除。

步骤102：识别关键词并对关键词进行扩展。因为约定每个词以空格加以分隔，所以可以直接用字符串分析方法以空格分隔出不同的关键词。如果词之间没有空格，则需要调用词组切分算法。在系统运行前必须预先使用数据库系统建立一个同义词、近义词和上下义词电子字典，即记录每一个词的同义词、近义词和上下义词，或者引用一个他人开发的电子字典。用户在查询子句界面(图2)中点击查询操作按钮(208)后，系统进入查询运算状态。

查询运算的第一步是进行关键词扩展。关键词扩展的方法是：对每一个关键词，根据字典查找它的同义词、近义词和上下义词，将每个关键词及它所有的同义词、近义词和上下义词都加入到对应的关键词集合中，并且记录它的编码和词类。关键词的扩展特别是近义词的扩展不能递归进行，否则得到的关键词集合太大，不利于查询的进行。

步骤103：对数据库中所有的文档进行标记。取出数据库中每一个文档，将其转换成文本字符串，然后对文档从头至尾搜索关键词、代词以及用于分隔句子的句号、段落标识符等，用一个对象数组记录下所有的句子、关键词、代词的类型、编码、词类和位置等数据。

如果是对网页文件进行处理，可以在文档转化成文本字符串时通过HTML文件中的标识识别并标记文档中的标题，并且用一棵树记录全文中标题的层次关系及起止位置，这样在后面语义脉络测试时可以根据当前句子选择合适的标题。

步骤104：对所有的代词进行代词分析并替换。如图3所示，代词替换的依据是，如果前一句中(包括当前复合句中的前句)存在词类和指代类型相同的关键词(步骤302)，就用该关键词的类型、编码、词类替换该代词的数据(步骤305)，如果前一句中对应位置仍然是相同的代词(步骤303)，则上溯到前一句的前一句(步骤301)，否则消除当前代词标记(步骤304)。

步骤105：对数据库中每个文档，以每条句子为单位，进行语义脉络的匹配检测。根据步骤103所得到的句子标记可以确定每个文档中任一条句子的起止位置，即前后两个句子标记就是当前句子的起止位置。然后在当前句子的起止位置内进行句子的语义脉络的匹配，即如果该句子中存在与用户输入的查询语义脉络相同的词的标记，而且词的词类和顺序也与用户设定的相一致，则它们在语义脉络上匹配，该文档就被选为所需文档。

如果用户选择段落标题也属于匹配的范围，则从记录标题的树上取对应的标题，将其也作为匹配检测对象进行测试。

本具体实施步骤特别适合汉语文档的检索，因为汉字没有字形的变化，作定语时顺序位置也比较固定。对于其他语言则需要进行补充和修改。例如，如果是英语文档的检索，由于英语的词在使用过程中有变化，作定语时在句子中的顺序也可以变化，所以需要调用词或词组切分程序对词或词组进行切分，并且选择无序语义脉络匹配或者特定关键词无序的语义脉络匹配。

对本领域的普通技术人员而言，本发明所涉及的数据结构和算法可以在一般的计算机系统中实现，举例而言，可以使用高级程序设计语言VC++和数据库系统Access加以实现。如果需要在网络搜索引擎实现本发明，则需要在记录关键词的数据结构中增加该关键词的位置数据，并且增加一个树来记录每一篇文档的标题信息。

以上所述，仅为本发明其中的较佳实施例而已，并非用来限制本发明的实施范围；即凡依本发明申请专利范围所作的均等变化与修饰，皆为本发明专利范围所涵盖。

Claims

1.一种语义脉络文档查询方法，应用于基于计算机的文档查询特别是网络文档查询，其特征是：将用户输入的查询要求转换成查询语义脉络，即一组关键词及其顺序关系，将全部被测试文档中的每一个文档分解成句子，记录这些文档中的句子、关键词、代词、段落标题等编码、类型和位置等信息，对每个句子中的代词进行分析，用它所代表的关键词进行替换，用查询语义脉络中的关键词及词类、位置顺序去与被测试文档中的句子进行匹配，将满足关键词及其顺序关系相同的文档选为用户需要的文档。

2.根据权利要求1所述的语义脉络文档查询方法，其特征是：将用户输入的查询要求按照句子的结构进行查询语义脉络的转换，用一个对象数组记录下用户输入的各个词的词类和顺序关系。

3.根据权利要求1所述的语义脉络文档查询方法，其特征是：对被测试文档使用关键词、句子分隔符、代词等作为搜索词进行字符串搜索，用一个对象数组标记下每个关键词、句子分隔符、代词等的类型、编码、词类和位置等数据，将其分割成以句子为基本单位的片断组合。

4.根据权利要求1所述的语义脉络文档查询方法，其特征是：对被标记的测试文档进行代词分析，将当前句子中的代词用前面最近句子中对应的关键词替换，即替换或去掉权利要求3中对象数组中代词的数据。

5.根据权利要求1所述的语义脉络文档查询方法，其特征是：使用查询语义脉络与被测试文档进行匹配测试时，如果被测试文档中存在一条句子，它包含了语义脉络中所有的词，并且满足用户设定的顺序和词类匹配要求，则该文档是用户需要的文档。

6.根据权利要求5所述的语义脉络文档查询方法，其特征是：如果用户设定语义脉络匹配为严格有序，则要求查询语义脉络与被测试文档中句子的词类代码相同，词的位置排列顺序也相同。

7.根据权利要求5所述的语义脉络文档查询方法，其特征是：如果用户设定语义脉络匹配为无序匹配，则只要求查询语义脉络与被测试文档中句子的词类代码相同。

8.根据权利要求5所述的语义脉络文档查询方法，其特征是：如果用户设定语义脉络匹配为被动语序，则允许被测试文档句子中主语、宾语位置颠倒。

9.根据权利要求5所述的语义脉络文档查询方法，其特征是：如果用户设定段落标题也是被测试文档中句子的一部分，则在进行匹配运算时可对当前被测试句子进行扩展，将它所属的段落标题也加入到该句子里参加测试。