CN115617965A

CN115617965A - 一种语言结构大数据的快速检索方法

Info

Publication number: CN115617965A
Application number: CN202211163078.6A
Authority: CN
Inventors: 荀恩东; 肖叶
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-01-17

Abstract

本发明提供一种语言结构大数据的快速检索方法，根据语言结构数据的类型，确定需要构建的基本索引单元及索引单元对应的索引内容，检索时，对用户输入的检索表达式进行解析，解析出与索引单元对应的检索单元及检索单元之间的关系，按单链二叉树后序遍历的方式获取每个检索单元的结果并按解析出的各检索单元之间的关系进行合并。本发明中，索引单元的设计能够利用语言数据本身的词法和句法信息，实现语言结构数据的多方位语言知识的检索需求，结构检索语言的设计，能够让用户以较低的成本学习检索语言并书写出规范且满足检索需求的检索表达式。

Description

一种语言结构大数据的快速检索方法

技术领域

本发明涉及一种语料库检索方法，尤其是涉及一种语言结构大数据的快速检索方法。

背景技术

自然语言在语法上呈现出层次组合性，针对各语法单位和语言数据经语法分析后呈现出的语法结构特征，可以设计索引单元和检索流程，实现语言结构大数据的快速检索。

1.语法的层次组合性：自然语言中的句子由各级语法单位按阶梯般的层级规律构成，其中，上级的语法单位由下级语法单位按一定的规则组合而成，如词由语素构成。自然语言句子的这种层次组合特性，可以通过语法分析将其反映出来。

2.语法单位：在自然语言句子，凡是能够在组合的某一位置上被替换的语言片段即为语法单位。最大的语法单位是句子，其他的语法单位从大到小依次是：词组、词、语素。

3.语言结构数据：语言结构数据指经过了语法或语义分析，并将分析结果以树结构或者图结构形式呈现的语料，主要包括句法结构树语料、句法依存树语料、句法依存图语料、语义结构树语料、语义依存图语料等。本发明主要针对句法结构树语料的快速检索，句法结构树语料是指对句子进行句法结构分析后，如短语结构句法分析，形成的标记了句子各语法单位的性质、功能信息，并体现了语法单位之间层级语法关系的树状结构语料。

4.索引：索引是一种为了加快信息查找，基于目标信息内容预先创建的一种储存结构，是一种常见的检索优化手段。对于大规模语料库系统而言，索引能够大幅提升语料库的查询效率，提升语料库检索系统的并发能力。语言数据的索引就是提取出语料中的待检索对象，对其构建索引，构建从语言数据的待检索对象到对象所在句子、段落或文档的关联关系，组织成一定的结构，以支持大规模语言数据的快速查询。

5.索引单元：索引单元在建索引时是指用于定位索引内容的节点。在检索时,是指从原子检索式中解析出的用于与索引库中内容进行过比较的单元，也称为检索单元。索引单元可以是字符、词语或语法标记符号。索引单元对应的索引内容则保存了索引单元所在句子在语料中的偏移量、索引单元在句中的位置、以及索引单元的相关信息。在检索时，通过索引单元找到对应的索引内容，通过索引内容可定位索引单元在语料中的位置及相关信息，还原出语料内容，从而完成比较，获得检索结果。

索引单元揭示了语料中有检索意义的内容或形式特征。所以，需要针对被索引数据的具体情况并结合用户的检索需要，选出合适的索引单元，为其配备适用的索引。语料库索引单元的设计应在语料特征的基础上，以检索需求为导向，什么特征具有被频繁检索的需求，什么特征的组合有利于提升知识抽取的准确率和效率，就将其作为重点索引对象，构建与之相关的索引单元，以期在最大限度上利用有限的资源实现更加高效的语料检索性能。

典型的索引单元有字、词等。生语料常以字作为索引单元，不依赖于分词，实现起来较为容易，检索时也只能以字或者字的组合来查找。分词词性标注语料通常以词和词性标记作为索引单元，以支持词检索和词性检索。对于句法结构树语料，语料包含了字、词、短语、词性标记、属性标记以及不同语言单元之间的语法结构关系，为了支持对这些内容和关系的检索，索引单元也应当做出相应调整。

同时，随着语料库语言学研究的不断深入，对语料库的检索的准确度和功能的多样性提出了更高的需求，加之自然语言处理技术的发展，使得获取大规模语言结构数据成为现实可能。基于此，本发明针对语言结构数据的特点，考察了语言结构数据的检索需求，设计了以下基本索引单元：词性和该词性左紧邻词尾字符的组合、词性和该词性右紧邻词首字符的组合、句法功能属性标记和该句法单位尾字符的组合。除三类基本索引单元以外，还设计了5类复合索引单元类型，涉及：词性索引单元、句法功能属性标记索引单元、字符索引单元，复合索引单元复用了基本索引单元的索引数据，以支持使用词性、句法标记和字符实现快速查询，且无需额外产生额外的索引数据，有效压缩了索引库的规模。

6.检索语言：检索语言是语料库系统的重要组成部分。语料索引可以实现语言大数据的快速搜索，而检索语言承载了语料库检索系统提供的检索功能。对于一个语料库检索系统来说，在计算机执行检索操作的过程中，只有当检索输入与系统内部的数据特征标识相匹配，系统才能提供检索所需要的结果。而结果准确与否，不仅依赖于检索输入与数据特征标识的匹配程度，又很大程度上取决于检索输入规范的描述能力，即检索语言的描述能力。复杂的检索式设计可以支持强大的检索功能，但是会对用户学习和使用造成负担。例如，如果检索系统采用正则表达式的方式来查询，虽然语句标准、功能强，但是不易理解，需要付出更大的学习代价，且容易出错。本发明自定义了一套检索语言，支持对检索单元进行任意组装，可以描述复杂语言现象，在检索功能和使用的便捷度之间进行了平衡。

7.随着语料库语言学研究的深入，对语料检索提出了更高的要求。传统的关键词索引或关键词和词性索引，仅能提供词语和词性检索，未曾考虑语言数据的句法结构信息，由此获得的检索结果存在大量的歧义结构，准确度偏低。同时，近些年自然语言处理技术的快速发展，使得获取大规模语言结构数据成为现实可能。

发明内容

本发明提供了一种语言结构大数据的快速检索方法，解决了对语料库检索的问题，其技术方案如下所述：

一种语言结构大数据的快速检索方法，包括以下步骤：

S1：根据语言结构数据的类型，确定需要构建的基本索引单元及索引单元对应的索引内容，所述基本索引单元包括词性和该词性左紧邻词的尾字符组合、词性和该词性右紧邻词的首字符组合、句法性质功能标记和该句法单位的尾字符组合；

S2：设计结构检索语言，用于支持书写检索表达式，实现语言结构数据的查询，结构检索语言书写的检索式由三部分内容构成：查询对象、限制条件和功能操作；

S3：检索时，对用户输入的检索表达式进行解析，解析出与索引单元对应的检索单元及检索单元之间的关系，查询按单链二叉树后序遍历的方式获取每个检索单元的结果并按解析出的各检索单元之间的关系进行合并，流程包括设置约束条件、查询、对查询结果执行功能操作、输出检索结果。

进一步的，步骤S1中，词性和该词性右紧邻词的首字符组合、词性和该词性左紧邻词的尾字符组合、句法性质功能标记和该句法单位的尾字符组合，形式化分别表示为：|POS_HZ、HZ_POS|、$TAG_HZ；其中POS表示词性标记、HZ表示任意一个字符、TAG表示句法性质功能标记，符号“|”和“$”用于标识不同的索引单元类型，“_”用于分隔不同的索引元素。

所述|POS_HZ用于检索右紧邻字符为HZ且词性为POS的词语，支持指定词性右侧的字符串，实现以词性为起点，向右侧延伸查询；

所述HZ_POS|用于检索左紧邻字符为HZ且词性为POS的词语，支持指定词性左侧的紧邻字符串，实现以词性为起点，向左侧延伸查询；

所述$TAG_HZ表示的索引单元为“$属性标记_块尾字符”，其中属性标记包括了组块性质功能标记、小句标记和整句标记，用于检索属性标记为 TAG且尾字符为HZ的语言单元，属性标记所在的语言单元可能是短语、组块、小句或者整句，支持指定TAG所在的语言单元的后缀串，查询与后缀串匹配的语言单元。

进一步的，步骤S1中，还包括五类复合索引单元，分别为：词性、句法性质功能标记及字符，形式化表示为：|POS、POS|、$TAG、<HZ、HZ>，符号“<”和“>”同样用于标识不同的索引单元类型。

所述|POS表示的索引单元为“|词性”，用于检索右紧邻任意字符且词性为POS的词语，与“|POS_HZ”类型的索引单元共用同一套索引数据；

所述POS|表示的索引单元为“词性|”，用于检索左紧邻任意字符且词性为POS的词语，与“HZ_POS|”类型的索引单元共用同一套索引数据；

所述$TAG表示的索引单元为“$属性标记”，用于检索属性标记为TAG 所在的语言单元，与“$TAG_HZ”类型的索引单元共用同一套索引数据；

所述<HZ表示索引单元为“<字符”，用于检索以该字符为首的词语，与“|POS_HZ”类型的索引单元共用同一套索引数据；

所述HZ>表示索引单元为“字符>”，用于检索以该字符为尾的词语，与“HZ_POS|”类型的索引单元共用同一套索引数据。

进一步的，步骤S2中，所述查询对象是对基本检索内容的描述，用Query 表示，由汉字串或者词串、词性标记符号、句法标记符号以及一些特殊符号组成，所述句法标记符号指句法结构树语料中的短语、组块或更高一级语言单元的句法标注信息。

进一步的，步骤S2中，所述限制条件分为三类：对默认变量的约束、语料区间约束和语料元信息约束；

所述对默认变量进行约束的限定条件包括：默认变量($1、$2、$B、 $E、$Q)、比较运算符(>、<、＝、！＝)、内容限制操作符、长度限制操作符、输出控制符，用于对限定对象的范围、内容、长度、位置以及检索式的输出范围进行限制；

所述语料区间约束用于设置检索式的语料查询区间，设置0个或多个区间；

所述语料元信息约束中的“元信息”指的是构成语料的文档具有的元信息，或者是文本的位置段落信息。

进一步的，步骤S2中，所述功能操作的类型包括：实例检索、频次统计和历时统计，当检索式不指定窗口大小或者未指定功能操作类型时，默认进行实例检索并返回查询对象所在的整句实例。

进一步的，步骤S3中，所述设置约束条件的过程如下所述：语料库系统在接收到检索表达式后，首先会分析出检索式中的查询对象Query、限制条件和功能操作，然后将查询对象Query解析成能够在索引库中直接进行查找的检索单元，在检索式解析结束后，如果检索式中包含了条件限制语句，则为当前的检索设置限制条件。

进一步的，步骤S3中，所述查询分为基本查询和组合查询，分别由GetAS 函数和JoinAS函数完成；GetAS函数用于定位并查找到一个检索单元在索引库中对应的索引数据信息，JoinAS函数用于按照给定的关系合并两个检索单元的索引数据，按后序遍历的路径顺序执行，最终得到匹配所有检索单元且符合检索单元之间关系的索引数据信息。

进一步的，步骤S3中，所述功能操作由Context、Freq和Count 3个函数完成，分别表示获取检索结果的实例及其上下文、获取检索结果的实例及其统计频次、获取检索结果的实例及其历时统计频次。

进一步的，步骤S3中，输出检索结果由Output、Save等函数完成，Output 表示通过网络形式输出，Save表示将检索结果直接保存到本地文件。

所述语言结构大数据的快速检索方法，考虑到现阶段语料库语言学的研究需求及语言数据的特征，是一个能够利用语言结构数据中词法、句法及其结构信息的快速检索方法，通过设计合理的索引单元和索引内容，在控制索引数据规模的同时保证语料库的检索功能；通过检索流程的设计，在控制检索时间的同时压缩检索时的内存空间占用；通过检索语言的设计，在控制用户学习成本的同时保证检索语言的描述能力，发挥出语料库系统的检索功能。总体上，即利用语言结构数据的语法特征，设计索引单元，以提高检索效果；设计检索时的算法流程，降低大数据检索时的时空消耗；设计检索语言，降低用户学习成本并保证对检索功能的支持。

附图说明

图1是例句的句法结构树形图；

图2是“|d_认”索引数据组织形式示例图；

图3是“识_n|”索引数据组织形式示例图；

图4是“|d”索引数据组织形式示例图；

图5是“n|”索引数据组织形式示例图；

图6是“$NP-OBJ_响”索引数据组织形式示例图；

图7是“$NP-OBJ_响”索引数据组织形式示例图；

图8是“<认”索引数据组织形式示例图；

图9是“识>”索引数据组织形式示例图；

图10是检索式“打击(n){len($1)＝1}”中默认变量对应图示；

图11是检索流程图；

图12是基本查询和组合查询的调用流程图；

图13是示例脚本执行流程图。

具体实施方式

所述语言结构大数据的快速检索方法，包括以下步骤：

S1：根据语言结构数据的类型，确定需要构建的基本索引单元及索引单元对应的索引内容；

如果是分词词性标注语料，则以词性和该词性左紧邻词尾字符的组合为基本索引单元、以词性和该词性右紧邻词首字符的组合为基本索引单元，建立索引库；

如果是句法结构分析语料，则除以上两种基本索引单元以外，再以句法单位的句法性质功能标记和该句法单位尾字符的组合为基本索引单元，建立索引库。

S2：检索时，对用户输入的检索表达式进行解析，解析出与索引单元对应的检索单元及检索单元之间的关系，按单链二叉树后序遍历的方式获取每个检索单元的结果并按解析出的各检索单元之间的关系进行合并。

检索语言，根据索引单元的设计及语言结构数据的查询需求，设计了结构检索语言，检索语言支持以检索单元及表示检索单元之间关系的特殊符号来组装成任意的结构检索表达式。

本发明中，索引单元的设计能够利用语言数据本身的词法和句法信息，实现语言结构数据的多方位语言知识的检索需求，以三类基本索引单元，及与基本索引单元共享索引数据的5类复合索引单元，实现词、词性、句法结构及其任意组合的查询；单链二叉树后序遍历的检索流程能够在保证查询速度的同时，尽可能压缩检索时的内存占用，以支持语言结构大数据的快速检索。结构检索语言的设计，能够让用户以较低的成本学习检索语言并书写出规范且满足检索需求的检索表达式。下面具体进行描述。

S1索引单元设计

对于句法结构树语料，语料包含了字、词、短语、词性标记、句法属性标记以及不同语言单元之间的语法结构关系。为了对这些语料内容和形式特征实现快速查询，本方法设计了三种基本索引单元类型，分别为：词性和该词性右紧邻词的首字符组合、词性和该词性左紧邻词的尾字符组合、句法性质功能标记和该句法单位的尾字符组合，形式化分别表示为：|POS_HZ、 HZ_POS|、$TAG_HZ。其中POS表示词性标记、HZ表示任意一个字符(英语等语种下表示一个单词)、TAG表示句法单位的性质功能标记，符号“|”和“$”用于标识不同的索引单元类型，“_”用于分隔不同的索引元素，均没有实质意义。值得注意的是，在语料内容中出现的这些用于标识索引单元类型的特殊符号(“|”和“$”)都已转换为了对应的全角字符，因此，如需从语料库中检索这类字符，需使用全角形式进行查询。

“$TAG_HZ”的设计源自于汉语中名词性短语及除述补之外的谓词性短语大都中心语靠后的特点，以句法单位(短语是句法单位之一)的句法性质功能标记联合句法单位尾字符作为基本索引单元，以句法单位的尾词作为索引项，将每一种类型的句法性质功能标记按句法单位尾部的中心语进行区分，从而能够更加精准且快速地定位所要检索的块结构，减少后续研究的噪声处理工作。

除三类基本索引单元外，还包括五类复合索引单元，分别为：词性、句法性质功能标记及字符，形式化表示为：|POS、POS|、$TAG、<HZ、HZ>，符号“<”和“>”同样用于标识不同的索引单元类型，没有实质意义。

五类复合索引单元可以支持更多检索功能。例如，检索词性“v”可以通过查找出连续存储的所有基本索引单元“|v_HZ”来实现，其中HZ可以是任意字符。同样，句法性质功能标记“VP”可以通过查找到所有基本索引单元“$VP_HZ”的连续存储块区间来达到检索目的。在索引库中，同种类型的基本索引单元存储在连续分配的某个存储空间中，而复合索引单元指向其所对应的基本索引单元的地址区间，因此复合索引单元共用了基本索引单元的索引项和倒排项内容，这在很大程度上压缩了整个索引数据的规模。如图1所示，以EXAMPLE 1中的句子为例。原始句子：初步认识物质状态的影响。句法结构结构分析结果：

[ROOT[IP[VP-PRD[NULL-MOD[d初步]][VP-PRD[v认识]]] [NP-OBJ[n物质][n状态][u的][vn影响]][w[x。]]]]

下表是以EXAMPLE 1为例，部分索引单元的具体形式及其功能。

表1例句EXAMPLE 1的索引单元示例表

1)|POS_HZ

表示的索引单元为“|词性_该词性右紧邻词的首字符”。该类型索引单元可用于检索右紧邻字符为HZ且词性为POS的词语，如索引单元“|d_认”检索右紧邻字符为“认”的副词实例，结果示例如下：

<Q>初步</Q>认识；<Q>依法</Q>认定；<Q>一经</Q>认定；

<Q>新</Q>认定；<Q>已经</Q>认购；<Q>进一步</Q>认清；

<Q>不</Q>认为；

以上示例中，<Q>与</Q>之间的粗体内容是“|d_认”的查询结果，即副词的实例，副词右侧的词都以字符“认”为首，这里列出来仅为了说明查询结果所处的上下文环境。

在索引库内部，|POS_HZ类型索引单元的索引数据内容为词性POS右侧的紧邻字符串，且这些字符串都按字符序，从左到右进行了排序。以“|d_ 认”为例，其索引数据的内容及组织形式如图2所示，索引数据内容都从“认”开始，从左到右进行了排序。基于这种内容和组织形式，该类型索引单元能够支持指定词性右侧的字符串，实现以词性为起点，向右侧延伸查询。如指定检索单元“|d_认”中副词d右侧的字符串为“认定”，此时的检索结果示例如下：

<Q>初步认定</Q>；<Q>依法认定</Q>；<Q>一经认定</Q>；

<Q>新认定</Q>；<Q>已认定</Q>；<Q>自认定</Q>；

2)HZ_POS|

表示的索引单元为“左紧邻词的尾字符_词性|”，该类型索引单元可用于检索左紧邻字符为HZ且词性为POS的词语。如“识_n|”检索左紧邻字符为“识”的名词实例，结果示例如下：

辨识<Q>设备</Q>；标识<Q>信息</Q>；标识<Q>标牌</Q>；

标识<Q>体系</Q>；常识<Q>技能</Q>；认识<Q>企业</Q>；

知识<Q>讲座</Q>；......

<Q>与</Q>之间的粗体内容是“识_n|”的查询结果，名词左侧的词都以字符“识”为尾。

该类型索引单元的索引数据内容为词性POS左侧紧邻的字符串，这些字符串都按字符序，从右到左进行了排序。以“识_n|”为例，其索引数据的内容及组织形式如图3所示，索引数据内容都从“识”开始，从右到左进行了排序。该类型索引单元能够支持指定词性左侧的紧邻字符串，实现以词性为起点，向左侧延伸查询。如指定检索单元“识_n|”中词性n左侧的字符串为“充分认识”，此时的检索结果示例如下：

<Q>充分认识城市</Q>；<Q>充分认识企业</Q>；<Q>充分认识食品 </Q>；<Q>充分认识农村</Q>；<Q>充分认识自然</Q>；<Q>充分认识外贸 </Q>；......

3)|POS

表示的索引单元为“|词性”。该类型索引单元可用于检索右紧邻任意字符且词性为POS的词语，如索引单元“|d”检索右紧邻任意字符的副词实例，结果示例如下：

<Q>真正</Q>实现；<Q>必须</Q>按；<Q>现</Q>提出；<Q>重新</Q> 办理；<Q>未</Q>按；<Q>较</Q>多；......

以上“|d”的查询结果，副词右侧可以是任意字符。

4)POS|

表示的索引单元为“词性|”。该类型索引单元可用于检索左紧邻任意字符且词性为POS的词语，如索引单元“n|”检索左紧邻任意字符的名词实例，结果示例如下：

、<Q>扬沙</Q>；的<Q>整体</Q>；省<Q>科技</Q>；商务<Q>人才</Q>；

等<Q>设施</Q>；推进<Q>能源</Q>；......

以上“n|”的查询结果，名词左侧可以是任意字符。

5)$TAG_HZ

表示的索引单元为“$属性标记_块尾字符”，其中属性标记包括了组块性质功能标记、小句标记和整句标记。该类型索引单元用于检索属性标记为 TAG且尾字符为HZ的语言单元。属性标记所在的语言单元可能是短语、组块、小句或者整句。如“$NP-OBJ_响”检索以“响”为尾字符的名词性宾语块，结果示例如下：

<Q>市场影响</Q>；<Q>较大影响</Q>；<Q>重大影响</Q>；

<Q>各类情况对电力运行可能造成的影响</Q>；

<Q>对企业生产经营活动的影响</Q>；

<Q>价格上涨对低收入群体生活的影响</Q>；......

以上<Q>与</Q>之间的内容均为名词性成分，且在句中充当宾语。

该类型索引单元的索引数据内容为属性标记所在的语言单元，这些语言单元同样会按字符序，从右到左进行排序。以“$NP-OBJ_响”为例，其索引数据的内容及组织形式如图6所示，索引数据内容从“响”开始，从右到左排序。$TAG_HZ类型索引单元能够支持指定TAG所在的语言单元的后缀串，查询与后缀串匹配的语言单元。如指定检索单元“$NP-OBJ_响”的后缀串为“不利影响”，此时的检索结果示例如下：

<Q>重大不利影响</Q>；<Q>大型水库库容调度对水生生物造成的不利影响</Q>；<Q>施工过程对环境的不利影响</Q>；<Q>规划实施对环境的不利影响</Q>；<Q>规划和建设项目实施后可能受气象灾害、气候不利因素以及可能对局地气候产生的不利影响</Q>；<Q>不利影响</Q>；<Q>已有不利影响</Q>；......

6)$TAG

表示的索引单元为“$属性标记”。该类型索引单元用于检索属性标记为TAG所在的语言单元，可能是短语、组块、小句或者整句。如“$NP-OBJ”检索语料中所有的名词性宾语块。结果示例如下：

<Q>信息化科普产品创作</Q>；<Q>冰雪文学作品创作</Q>；

<Q>秸秆覆盖还田保护性耕作</Q>；<Q>体育教练员队伍选拔工作</Q>；

<Q>相应的处罚种类和幅度</Q>；<Q>中药材生产的良种覆盖度</Q>；

<Q>资金审核进度</Q>；......

以上“$NP-OBJ”的查询结果，可以是语料中属性标记为NP-OBJ的任意的语言单元。

在索引库中，该类型索引单元与“$TAG_HZ”类型的索引单元共用同一套索引数据。索引单元“$NP-OBJ”与“$TAG_HZ”类型的索引单元之间的关系如图7所示。索引单元“$NP-OBJ”指向了以任意字符结尾，且属性标记为“NP-OBJ”的“$TAG_HZ”类型的索引单元。“$TAG”类型索引单元能够支持指定该语言单元的后缀串。

7)<HZ

表示索引单元为“<字符”，用于检索以该字符为首的词语。该类型索引单元可用于检索左紧邻任意词性且首字符为“HZ”的词语，如索引单元“<认”检索左紧邻任意词性，且首字符为“认”实例，结果示例如下：

资格<Q>认定</Q>；股东<Q>认购</Q>；资质<Q>认可</Q>；

职权<Q>认领</Q>；思想<Q>认识</Q>；作用<Q>认识</Q>；

社会<Q>认同</Q>；.....

以上“<认”的查询结果，以“认识”为首字符的词语左侧可以是任意词性。

在BCC语料索引库中，该类型索引单元与“|POS_HZ”类型的索引单元共用同一套索引数据。索引单元“<认”与“|POS_HZ”类型的索引单元之间的关系如图8所示。索引单元“<认”指向了左紧邻任意词性且首字符为“认”的“|POS_HZ”类型的索引单元。“<HZ”类型索引单元能够支持指定该字符右侧紧邻的字符串，实现以该字符为起点，向右侧延伸查询。

8)HZ>

表示索引单元为“字符>”，用于检索以该字符为尾的词语。该类型索引单元可用于检索右紧邻任意词性且尾字符为“HZ”的词语，如索引单元“识>”检索右紧邻任意词性，且尾字符为“识”实例，结果示例如下：

<Q>认识</Q>、；<Q>认识</Q>发展；<Q>认识</Q>计量；

<Q>认识</Q>和；<Q>认识</Q>加强；<Q>认识</Q>实施；

<Q>认识</Q>加快；....

以上“识>”的查询结果，以“识”为尾字符的词语右侧可以是任意词性。

在索引库中，该类型索引单元与“HZ_POS|”类型的索引单元共用同一套索引数据。索引单元“识>”与“HZ_POS|”类型的索引单元之间的关系如图9所示。索引单元“识>”指向了右紧邻任意词性且尾字符为“识”的“HZ_POS|”类型的索引单元。“HZ>”类型索引单元能够支持指定该字符左侧紧邻的字符串，实现以该字符为起点，向左侧延伸查询。

S2结构检索语言设计

为平衡用户友好性与检索功能之间的关系，本方法设计了一种结构检索语言来支持书写检索表达式，实现语言结构数据的查询。

针对不同的语料形态，结构检索语言需满足不同的检索需求，对于生语料，需实现字符或字符串检索；对于分词、词性标注语料，需支持字符、词语、词性等基本语言单元和语言特征的检索；对于句法结构树语料，除了字符、词语、词性等基本内容特征，还需满足对句法属性、句法结构关系等内容和形式特征的查询。

结构检索语言书写的检索式由三部分内容构成：查询对象、限制条件和功能操作，形如：Query{Condition1；Condition2；...}Operatio

每一个检索式必须包含Query，Condition和Operation则是可选部分。当想要指定Operation，但不想添加Condition时，需保留Condition外层的花括号{}，此时花括号内部可以为空。

接下来将从查询对象、限制条件、功能条件三部分分别对结构检索语言的语法规则和功能进行说明。

1)查询对象

查询对象Query是对基本检索内容的描述，主要由汉字串(或者词串)、词性标记符号、句法标记符号以及一些特殊符号组成。如，想要查询一个数词加一个量词后再紧接字符串“苹果”的语言实例，查询对象部分可写为：“m q苹果”，其中m是数词的词性标记，q是量词词性标记。

其中，句法标记符号主要指句法结构树语料中的短语、组块或更高一级语言单元的句法标注信息，如短语结构标注语料中短语的句法属性标记VP、 NP等。在Query中，这类句法属性标记的描述方式与词性标记不同。此类标记符号书写形式为“标记符号[单元内部描述]”，单元内部描述方式与 Query的描述规则一致。例如：检索一个动词后紧接着一个体词性组块，且该体词性组块由一个形容词和“体系”一词共同组成，检索式可写为：“v NP[a体系]”。

查询对象部分还可以支持一些具有特殊含义的符号，用以表达更复杂的匹配模式，Query中的特殊字符说明见表2。

表2查询对象Query中的特殊字符表

2)限制条件

花括号{}中的内容为条件限制语句，Condition是对查询对象Query的限制条件，多个限制条件之间用分号“；”分隔。

限定条件可分为三类：对默认变量的约束、语料区间约束和语料元信息约束。

(1)默认变量的约束

Query中用小括号()括起来的部分认为是被限定内容，一个Query中被限定的成分只能有两处，即只能出现2个()。根据()出现的顺序，使用$(美元符)符号和序号指代，在限定语句中使用。即在Query中使用$1表示第一个()括起来的内容，使用$2表示第二个()括起来的内容，在结构检索语言中，称为默认变量。

除了用于指代Query中限定内容的$1和$2外，还另有$Q、$B、$E三个默认变量。其中，$Q表示整个查询对象，也就是Query；$B表示$Q左侧的上下文；$E表示$Q右侧的上下文。$Q、$B、$E不依赖于Query中是否有小括号限定，每个检索式都可以在条件限制语句中使用这三个默认变量。

对默认变量进行约束的限定条件由：默认变量($1、$2、$B、$E、$Q)、比较运算符(>、<、＝、！＝)、内容限制操作符、长度限制操作符、输出控制符等部分组成，用于对限定对象的范围、内容、长度、位置以及检索式的输出范围进行限制。

例如检索“打击”后接一个单音节名词，检索式可以写为：“打击(n) {len($1)＝1}”，图10是该检索式中各默认变量的图示。该检索式可用于研究“打击”后接单音节名词的语言现象。查询语言支持的限定条件类型见表 3。

表3限定条件类型表

说明：表中内容限制和长度限制的默认变量可由$1、$2、$B、$E和$Q 中的任意一个进行替换。

(2)语料区间约束

语料区间约束用于设置检索式的语料查询区间，可以设置0个或多个区间。结构检索语言提供了AddLimit和ClearLimit两个保留关键词来设置语料检索区间的约束，约束使用的区间指标可通过语料库工具预先从索引数据中导出。语料区间限制的使用方式形如：“AddLimit(区间下界指标,区间上界指标)”，其中区间上下界是一个整数值。使用“ClearLimit()”即可取消所有的语料区间约束。例如：检索“发展”一词在1978年人民日报语料中出现情况的统计结果，这里假设这部分语料在索引数据中的上下界指标区间为[10000,50000)，则检索式可以写为“发展{AddLimit(10000,50000)}Freq”。

(3)语料元信息约束

语料元信息约束中的“元信息”指的是构成语料的文档具有的元信息，如作者、发表时间、出版时间等，或者是文本的位置段落信息，如标题、摘要、正文等。当对语言结构语料的文档属性信息构建了索引，在限制语句中即可设置属性约束条件，对查询对象Query进行属性约束。例如：检索“青年”一词在1918年的鲁迅作品语料中出现情况的统计结果，检索式可以写为“青年{YEAR＝1918；AUTHOR＝鲁迅}Freq”。对于语言结构语料，在索引阶段进行了索引的属性信息，均可作为限制语句中的限制条件使用。

3)功能操作

检索式的第三部分Operation是功能操作，用于指定，基于前面的查询对象Query和限制条件Condition，将执行哪种类型的操作。功能操作类型有：实例检索、频次统计和历时统计，分别由Context、Freq和Count三个关键词来实现。

实例检索：

例如检索双音节动词v的实例及其所在的上下文，检索式可写为： (v){len($1)＝2}Context。

当功能操作类型为Context时，可通过默认变量$WinSize指定上下文的窗口大小。接上例，指定窗口最大为10个词，检索式为：“(v){len($1)＝2； $WinSize＝10}Context”。

当检索式不指定窗口大小或者未指定功能操作类型时，默认进行实例检索并返回查询对象所在的整句实例。

频次统计：

例如对所有双音节动词实例的频次进行统计，检索式可写为： (v){len($1)＝2}Freq。

历时统计：

历时统计一般与限制条件中的“语料区间约束”一起使用。使用AddLimit 关键词为检索设置历时区间。如果不设置该区间，Count的功能将与Freq一致，即对查询对象在所有语料中进行频次统计；如果设置了历时区间，Count 将按照区间的划分，分区进行统计。

如检索双音节动词分别在1990～1999和2000～2010年间出现情况的统计结果，这里假设1990～1999年语料的上下界区间为[100000,500000)， 2000～2010年语料的上下界区间为[500000,1000000)，则检索式可写为：

“(v){AddLimit(100000,500000)；AddLimit(500000,1000000)}Count”

这里的“历时”不只局限于时间概念，也可以按作者、文档分类等进行区间划分，只需知晓对应的语料区间上下界即可。如果把时间看做纵向的“历时”统计指标，那么其他维度，如作者、领域、篇章即可看做横向的“历时”统计指标，利用Count可实现不同维度的“历时”分区统计。

S3：检索流程设计

由结构检索语言描述的每一个检索需求在语料库系统中整体检索流程如图11。

整体检索流程图由四部分组成：约束条件设置、查询、功能操作、输出检索结果。由前往后顺序执行。

语料库系统在接收到检索表达式后，首先会分析出检索式中的查询对象 Query、限制条件和功能操作。然后将查询对象Query解析成可在索引库中直接进行查找的检索单元。

在检索式解析结束后，如果检索式中包含了条件限制语句，则为当前的检索设置限制条件。约束条件设置主要由Condition、AddLimit、ClearLimit、 SetBase4个函数完成，分别用于设置不同类型的约束条件。其中，SetBase 函数将前一个查询的检索结果设置为基点(图11左侧的查询过程)，在同一个脚本中，接下来的查询将在前一个查询的结果基础上进行二次查询，执行二次查询时，可再次进行约束条件限制。

设置完限制条件后，再根据检索式中解析出检索单元进行查询。查询分为基本查询和组合查询，分别由GetAS函数和JoinAS函数完成。GetAS函数用于定位并查找到一个检索单元在索引库中对应的索引数据信息，JoinAS 函数用于按照给定的关系合并两个检索单元的索引数据，整个查询过程按照图12“基本查询和组合查询的调用流程图”所示的虚线箭头方向，按后序遍历的路径顺序执行，最终得到匹配所有检索单元且符合检索单元之间关系的索引数据信息。

获得所有符合所有检索单元的索引数据信息后，即可根据检索式中指定的功能操作获取对应的结果形式。功能操作由Context、Freq和Count 3个函数完成，分别表示获取检索结果的实例及其上下文、获取检索结果的实例及其统计频次、获取检索结果的实例及其历时统计频次。基于查询阶段的索引数据信息，执行功能操作，得到最终的检索结果。

得到最终检索结果后，即可根据指定的输出形式完成检索结果输出。输出检索结果由Output、Save等函数完成。Output表示通过网络形式输出， Save表示将检索结果直接保存到本地文件。

每个有语料查询功能的脚本必须包含三个步骤：查询、功能操作以及输出，查询部分用于实现基础的原子查询及其组合查询，获取结果信息；功能操作根据结果信息获取目标结果形式，包括实例及其上下文、实例及其统计频次和实例及其历时统计频次；输出用于按照指定的方式输出最终检索结果，可以通过网络形式输出，也可以将结果直接保存到文件中，或对检索结果进一步进行处理分析。

以具体的检索需求为例进行详细说明如下：

检索需求描述：检索述宾结构并输出其所在的上下文，其中，述语是一个包含状语(NULL-MOD)的复杂述语，宾语是以“工作”结尾的体词性短语，并限制述语和宾语的长度分别为2和4。

检索式：

(VP-PRD[NULL-MOD[]VP-PRD[]])(NP-OBJ[*工作]){len($1)＝2；len($2)＝4}Context

检索结果示例：

我<Q>先做</Q><Q>准备工作</Q>。

而我的责编，就像<Q>都是</Q><Q>他的工作</Q>。

现在<Q>很爱</Q><Q>我的工作</Q>，真的不想失去它。

这个<Q>再找</Q><Q>一份工作</Q>获取工资收入。

因为生活拮据，我<Q>去做</Q><Q>这份工作</Q>。

前几天有去过上海<Q>去做</Q><Q>拍摄工作</Q>。

二是<Q>敢做</Q><Q>群众工作</Q>。

.....

示例检索式在语料库系统中的执行流程图和数据流如图13所示，上述示例脚本的执行流程可分为四个部分：设置约束条件、查询、对查询结果执行功能操作、输出检索结果。四个步骤从下往上依次执行。

设置约束条件：由Condition函数完成，该检索式中设置的约束条件为：述语和宾语的长度分别为2和4。约束条件设置完成后将对该脚本接下来的执行过程有效。

查询：主要包括基本查询和组合查询，分别由GetAS函数和JoinAS函数完成，脚本中的GetAS和JoinAS函数调用构成了一颗单支二叉树，整个查询按照二叉树后序遍历的过程执行，获得满足所有基本查询和组合查询的结果。

对查询结果执行功能操作：查询过程执行完成后得到的结果并不是实际的语料内容，只是包含了能够获得真实语料内容的一些信息，该步骤根据这些信息可以获得结果的实例及上下文，或者获得结果的实例及其统计频次，或者是获取结果实例的历时统计频次。示例脚本中的Context函数用于获得结果的实例及其上下文。

输出检索结果：输出功能操作步骤产生的检索结果，该脚本中使用 Output函数将检索结果以网络服务形式返回给语料库检索请求方。

本发明通过设计合理的索引单元和索引内容，在控制索引数据规模的同时保证语料库的检索功能；通过检索流程的设计，在控制检索时间的同时压缩检索时的内存空间占用；通过检索语言的设计，在控制用户学习成本的同时保证检索语言的描述能力，发挥出语料库系统的检索功能。总体上，即利用语言结构数据的语法特征，设计索引单元，以提高检索效果；设计检索时的算法流程，降低大数据检索时的时空消耗；设计检索语言，降低用户学习成本并保证对检索功能的支持。

Claims

1.一种语言结构大数据的快速检索方法，包括以下步骤：

2.根据权利要求1所述的语言结构大数据的快速检索方法，其特征在于：步骤S1中，词性和该词性右紧邻词的首字符组合、词性和该词性左紧邻词的尾字符组合、句法性质功能标记和该句法单位的尾字符组合，形式化分别表示为：|POS_HZ、HZ_POS|、$TAG_HZ；其中POS表示词性标记、HZ表示任意一个字符、TAG表示句法性质功能标记，符号“|”和“$”用于标识不同的索引单元类型，“_”用于分隔不同的索引元素。

3.根据权利要求2所述的语言结构大数据的快速检索方法，其特征在于：所述|POS_HZ用于检索右紧邻字符为HZ且词性为POS的词语，支持指定词性右侧的字符串，实现以词性为起点，向右侧延伸查询；

所述$TAG_HZ表示的索引单元为“$属性标记_块尾字符”，其中属性标记包括了组块性质功能标记、小句标记和整句标记，用于检索属性标记为TAG且尾字符为HZ的语言单元，属性标记所在的语言单元可能是短语、组块、小句或者整句，支持指定TAG所在的语言单元的后缀串，查询与后缀串匹配的语言单元。

4.根据权利要求2所述的语言结构大数据的快速检索方法，其特征在于：步骤S1中，还包括五类复合索引单元，分别为：词性、句法性质功能标记及字符，形式化表示为：|POS、POS|、$TAG、<HZ、HZ>，符号“<”和“>”同样用于标识不同的索引单元类型。

5.根据权利要求4所述的语言结构大数据的快速检索方法，其特征在于：所述|POS表示的索引单元为“|词性”，用于检索右紧邻任意字符且词性为POS的词语，与“|POS_HZ”类型的索引单元共用同一套索引数据；

所述$TAG表示的索引单元为“$属性标记”，用于检索属性标记为TAG所在的语言单元，与“$TAG_HZ”类型的索引单元共用同一套索引数据；

6.根据权利要求1所述的语言结构大数据的快速检索方法，其特征在于：步骤S2中，所述查询对象是对基本检索内容的描述，用Query表示，由汉字串或者词串、词性标记符号、句法标记符号以及一些特殊符号组成，所述句法标记符号指句法结构树语料中的短语、组块或更高一级语言单元的句法标注信息。

7.根据权利要求1所述的语言结构大数据的快速检索方法，其特征在于：步骤S2中，所述限制条件分为三类：对默认变量的约束、语料区间约束和语料元信息约束；

所述对默认变量进行约束的限定条件包括：默认变量($1、$2、$B、$E、$Q)、比较运算符(>、<、＝、！＝)、内容限制操作符、长度限制操作符、输出控制符，用于对限定对象的范围、内容、长度、位置以及检索式的输出范围进行限制；

8.根据权利要求1所述的语言结构大数据的快速检索方法，其特征在于：步骤S2中，所述功能操作的类型包括：实例检索、频次统计和历时统计，当检索式不指定窗口大小或者未指定功能操作类型时，默认进行实例检索并返回查询对象所在的整句实例。

9.根据权利要求1所述的语言结构大数据的快速检索方法，其特征在于：步骤S3中，所述设置约束条件的过程如下所述：语料库系统在接收到检索表达式后，首先会分析出检索式中的查询对象Query、限制条件和功能操作，然后将查询对象Query解析成能够在索引库中直接进行查找的检索单元，在检索式解析结束后，如果检索式中包含了条件限制语句，则为当前的检索设置限制条件。

10.根据权利要求1所述的语言结构大数据的快速检索方法，其特征在于：步骤S3中，所述查询分为基本查询和组合查询，分别由GetAS函数和JoinAS函数完成；GetAS函数用于定位并查找到一个检索单元在索引库中对应的索引数据信息，JoinAS函数用于按照给定的关系合并两个检索单元的索引数据，按后序遍历的路径顺序执行，最终得到匹配所有检索单元且符合检索单元之间关系的索引数据信息。