CN108228701A

CN108228701A - 一种实现汉语近自然语言查询接口的系统

Info

Publication number: CN108228701A
Application number: CN201710996119.2A
Authority: CN
Inventors: 李治江; 宋甜; 商永星
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-06-29

Abstract

本发明属于计算机及信息服务技术领域，涉及一种实现汉语近自然语言查询接口的系统。包括设置：一个用于进行数据库操作的数据库管理模块、一个进行词法和语义句法分析的自然语言解析模块、一个用于生成中间语言的自然语言转述模块。各模块预留有针对相关领域查询操作的接口。本发明通过数据库管理模块，可以实现对不同领域任务需求进行相应配置，建立相应的查询系统。本发明可广泛用于不同领域的信息查询服务系统等。

Description

一种实现汉语近自然语言查询接口的系统

技术领域

发明属于计算机及信息服务技术，特别涉及可根据不同领域特点和任务需求，快速实现汉语查询语句理解的方法。

背景技术

语查询接口，是以自然语言为媒介与使用者进行信息交流的计算机程序集合，计算机通过接收用户的输入，经过解析处理后，能够给出结构化的查询语言，通过相应操作给出回答。

自然语言是人类最常用的表达形式，语音、文本、图像等大众信息载体通常都是运用自然语言来描述和表达的，而在搜索、电商、广告、社交、语音等领域中，自然语言更是随处可见的交流方式，所以自然语言解析成为计算机了解用户意图的关键技术。如果计算机能够理解自然语言，用户就能够通过自然语言使用各种软件，因此，自然语言理解一直是人工智能中的最活跃的研究领域之一。自然语言接口可广泛应用于多种信息服务领域，例如航班信息查询、酒店预订查询、地理信息查询等。

自然语言处理(NLP，Natural Language Processing)是研究如何能让计算机理解人们日常使用的语言，使得计算机懂得自然语言的含义的课题，所以自然语言处理又叫做自然语言理解(NLU， NaturalLanguageUnderstanding)，也称为计算语言学(ComputationalLinguistics)。

一方面，它是语言信息处理的一个分支，另一方面是人工智能的核心课题之一。自然语言和各种符号语言一样，是人们进行推理和交流的桥梁，由于语言在智能活动中具有重要的作用，当计算机在不同领域逐步替代人类完成各项工作时，人们也期待着计算机在自然语言的处理上能够接近甚至达到人的智能水平。自然语言处理目前在这方面所进行的工作包括自然语言人机接口、问答系统、机器翻译、文摘生成、情报检索等。

自然语言接口作为自然语言理解的有效应用之一，正受到越来越广泛的关注。所谓自然语言接口就是允许人们用某种自然语言的子集在限制领域内同计算机进行通讯、交互。自然语言接口是人工智能与数据库技术相结合的产物，涉及到人工智能、自然语言处理、数据库系统和人机接口等方面的研究。许多年来，它作为人工智能接口的重要组成部分引起了广泛的兴趣，成为具有重要理论价值和巨大实用价值的研究领域。、

自然语言理解模块的研究由来已久，一般地，自然语言查询处理有以下不同的策略：(1)面向特定应用领域的分析方法，多出现在早期系统，系统内只有专用词典，分析方法以关键字匹配和模式匹配为主；(2)面向通用领域的分析方法，采用一般的自然语言处理方法，如扩充转移网络，概念从属理论等，分析过程包含了语法分析与语义分析，系统设有专用和通用词典；(3)面向数据库应用领域的分析方法，结合数据库领域特点采用受限的综合语义分析法，语法语义分析合一，设有专用和通用词典。

目前，汉语查询接口的实现是一个较困难的过程。由于当前技术水平的限制，自然语言理解、自然语言转述模块都要根据具体任务来设计，交流的信息和领域任务有关，这些信息之间互相联系，它们整体构成了领域概念，这些系统的可移植性差，具有较大的局限性。

发明内容

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种实现汉语近自然语言查询接口的系统，其特征在于，包括：

数据库管理模块：用于对于领域数据的选择以及数据的更新和完善；

自然语言解析模块：用于对每一用户语句进行理解，分析结果用定义的结构化的中间语言表示；

自然语言转述模块：根据自然语言理解模块的结果，将中间语言转换成json格式输出。

上述各模块预留有针对相关领域查询操作的接口。

在上述的实现汉语近自然语言查询接口的系统，所说的数据库管理模块具体包括：

步骤2.1、领域本体创建：针对不同的应用领域，建立其基本查询对象、查询属性的本体描述，并记录在XML文件中。这一过程可以直接通过编辑XML文件实现；也可以通过软件界面予以实现，并将本体信息记录在 XML文件中。

步骤2.2、领域本体的加载：根据当前的应用领域，从已经存在的领域本体列表中选取对应的本体描述，进而根据本体描述扫描数据库。如果发现对应数据库，则设定此数据库为当前的操作数据库；如果没有发现对应数据库，则为此领域本体创建对应的数据库，并将其设定为当前的操作数据库。

步骤2.3、领域本体编辑：对已有的领域本体进行编辑，主要针对其涉及的查询对象的描述及属性信息的描述进行增加、删除和修改等操作。所有操作均会反映到数据库中。

步骤2.4、本地数据库更新：数据库分为两部分内容：通用语料信息和领域语料信息。通用语料信息可以通过人工输入、用户反馈、批量导入外部语料信息等方式进行更新维护；领域语料信息可以通过人工输入、用户反馈、批量导入领域语料信息等方式进行更新维护。

步骤2.5、数据库备份：为了避免发生意外停机或数据丢失的情况，需要及时对数据库进行备份，可以选择对系统中的所有数据或部分数据进行备份，设定备份周期和机制，并提供备份和恢复功能；

步骤2.6、系统参数设置：管理各类系统参数并提供编辑接口，系统参数包括领域本体文件存放路径、用户信息、数据库参数等。

在上述的实现汉语近自然语言查询接口的系统，所说的本地数据库包括：

数据库包括领域本体库、语料库、分词词典、词性标注词典、同义词词典、数据库语义词典以及后续用于句法分析的词性模板库；

语言处理和语义提取是通过JDBC实现对数据库的访问。该结构可以作为一个独立运行系统，通过ODBC或JDBC连接到现有的DBMS之上，充分实现了DBMS的可移植性。

在上述的实现汉语近自然语言查询接口的系统，所说的自然语言解析模块实现方法包括以下步骤：

步骤4.1、从数据库中读取领域本体库、语料库、分词词典、词性标注词典、同义词词典、数据库语义词典以及后续用于句法分析的词性模板库；

步骤4.2、对输入的汉语查询语句进行分词、词性标注、语义扩展以及命名实体识别等相关操作；

步骤4.3、将经过词法分析的结果进行基于数据库语义的句法分析；

步骤4.4、对句法分析结果进行语义分析。

在上述的实现汉语近自然语言查询接口的系统，所说的步骤4.1中，优先分词词典是按照设定的提取规则从现有的数据库字典去生成的领域相关的词典，即为专用词典，再使用通用词典，包括了基本的语言词语，如查询动词、逻辑词、标点符号、关系词、函数词。

在上述的实现汉语近自然语言查询接口的系统，所说的基于数据库语义的句法分析，具有如下特征：

在句法分析过程中是以数据库各对象的实体名、属性及属性值、关系以及相关领域知识为基础进行分析，将数据库概念和领域概念结合为一体，从而提高分析的准确性，并在一定程度消除了分词及句法分析时的歧义问题；

对于查询语句的词语的不完整输入，在句法分析过程中通过模糊查询处理，将一些省略的查询进行规范化的完整输出。

在上述的实现汉语近自然语言查询接口的系统，还设置有自然语言转述模块用于将经过自然语言解析模块处理的中间语言转换为结构化的json 格式输出。

因此，本发明具有如下优点：1、可以快速有效建立用于信息服务的汉语近自然语言查询接口；2、自然语言理解模块可根据领域任务配置，提出了基于领域本体与词性模板匹配的解析方法，算法实现起来简单，但有较高的解析准确率；3、领域本体和数据库管理模板使系统的可移植性得以实现，能够满足不同领域的需求，还可以实现数据的动态更新和完善。

本发明可用于建立多种信息服务系统，如地理信息查询、航班信息查询、酒店服务查询、电

附图说明

图1为本发明的系统总体框架示意图。

图2为自然语言理解模块示意图。

图3为数据库管理模块功能组成图。

图4为数据迁移示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

一、首先介绍一下本发明的系统结构。

本发明提出一种实现汉语近自然语言查询接口的方法，包括以下步骤：

1)设置一个自然语言解析模块，用于对每一条输入的近自然语句进行语

义句法分析，分析结果用定义的固定格式的中间语言表示；

2)设置一个数据库管理模块，用于进行领域数据的选择以及数据的更新和完善；

3)设置一个自然语言转述模块，根据自然语言理解模块的结果，将中间语言转换成json格式的输出。

4)上述1)-3)中各模块预留有针对相关领域查询操作的接口。所说的数据库管理模块包括如下内容和功能：

a.领域本体创建：根据应用领域特点，创建对应该领域的XML文件，记录有该领域的主要查询对象、查询属性等领域本体信息；

b.领域本体编辑：对已有的领域本体进行编辑，主要针对其涉及的查询对象的描述及属性信息的描述进行增加、删除和修改等操作。所有操作均会反映到数据库中；

c.领域本体的加载：根据当前的应用领域，从已经存在的领域本体列表中选取对应的本体描述，进而根据本体描述扫描数据库。如果发现对应数据库，则设定此数据库为当前的操作数据库；如果没有发现对应数据库，则为此领域本体创建对应的数据库，并将其设定为当前的操作数据库；

d.本地数据库更新：数据库分为两部分内容：通用语料信息和领域语料信息。通用语料信息可以通过人工输入、用户反馈、批量导入外部语料信息等方式进行更新维护；

领域语料信息可以通过人工输入、用户反馈、批量导入领域语料信息等方式进行更新维护；

e.数据库备份：为了避免发生意外停机或数据丢失的情况，需要及时对数据库进行备份，可以选择对系统中的所有数据或部分数据进行备份，设定备份周期和机制，并提供备份和恢复功能；

f.系统参数设置：管理各类系统参数并提供编辑接口，系统参数包括领域本体文件存放路径、用户信息、数据库参数等。

所说的数据库管理模块本地数据库具有如下特征：

a.数据库包括领域本体库、语料库、分词词典、词性标注词典、同义词词典、数据库语义词典以及后续用于句法分析的词性模板库。其中语料库中包含的主要是各类常用字典信息；

b.语言处理和语义提取是通过JDBC实现对数据库的访问。该结构可以作为一个独立运行系统，通过ODBC或JDBC连接到现有的DBMS之上，充分实现了DBMS的可移植性。

所说的自然语言理解模块是一个强大的汉语查询语言分析器，它使用基于领域本体与词性模板匹配的解析方法来描述查询语言，实现方法包括以下步骤：

通过设置有数据库连接路径的配置文件连接到数据库，读取语料库、分词词典、词性标注词典、同义词词典、数据库语义词典、词性模板库等；

1-1)对输入的汉语查询语句进行词法分析，实现方法如下：

a.通过分词词典对输入的汉语查询语句进行分块分词，然后存储；

b.将经过分词处理的词语序列通过同义词词典和语料库进行语义扩展，得到标准化的输入；

c.经得到的标准化的词语序列，根据词性标注库中的词性以及频率的优先级，进行词性标注，得到词性标注序列；

1-2)对词性标注序列进行语义句法分析，实现方法如下：

a.识别输入文本中具有特定意义的实体，也就是对应于领域本体库中具有实体语义的词语。将每一个分块与领域专用分词词典中的值做匹配，若一致，则将其对应的实体种类返回到语句块中；

b.对于省略输入的词语进行模糊查询处理。将动词之后，助词之前的词进行组合，除此将标有名词词性的词语与对应的实体表中的数据进行匹配，返回完整标准化词语，组成完整的查询语句；

c.通过词性模板库，进行词性模板匹配，对不同条件进行解析，得到属性值。对多条件查询语句，采用最大逆向匹配算法结合词性模板，将句子划分为m个单条件查询，匹配到不同的词性模板，根据不同词性序列的处理方法进行解析得到相应属性值；

d.确定主查询目标。根据分词时得到的不同实体种类，统计每种实体种类出现的次数，从而确定查询主目标。一般来说属性描述越多的应为主查询对象，其他的对象为关联查询对象。当出现次数相同时，根据查询语句特点，靠后的实体为查询对象；

e.查询条件的判断。分词序列中所有属于主查询目标的属性为查询条件，解析到的含有其他对象属性的对象即为关联查询对象，其对应的属性为关联查询对象值；

f.查询类型判断。根据汉语查询语句的表达特点，常用的表示统计查询的词有：多少、几个、总共、一共等，所以在查询判断时，如果句子中出现这些词，则判断为“统计查询”，否则为“列表查询”。

所说的自然语言转述模块用于将经过自然语言解析模块处理的中间语言转换为结构化的json格式输出。

二、下面结合具体实施例进行介绍。

本系统的建立步骤如下：

1)建立系统所需的各类领域本体和通用数据库、导入或采集领域语料信息；

2)实现该领域的数据库管理模块。

3)实现该领域的自然语言理解模块。

4)实现该领域的自然语言转述模块。

5)构建该领域的查询接口系统。

实现该领域的数据管理模块，方法如下：

1-1)领域本体以xml文件的方式进行记录和管理，存放在系统指定路径下，用来记录当前应用领域的领域本体信息、语料库的结构以及数据间的映射关系。内容包括服务器数据库配置、本地数据库配置、人{姓名}、属性{pos->nr、 NE->人、NEtype->姓名}等；

1-2)领域本体创建：根据应用领域特点，创建对应该领域的XML文件，并在XML文件中记录该领域的主要查询对象、查询属性等领域本体信息，对应内容；

1-3)领域本体加载：根据当前的应用领域，从已经存在的领域本体列表中选取对应的本体描述，进而根据本体描述扫描数据库。如果发现对应数据库，则设定此数据库为当前的操作数据库；如果没有发现对应数据库，则为此领域本体创建对应的数据库，并将其设定为当前的操作数据库；

1-3)领域本体编辑：对已有的领域本体进行编辑，主要针对其涉及的查询对象的描述及属性信息的描述进行增加、删除和修改等操作。所有操作均会反映到数据库中；

1-4)本地数据库更新：首先根据领域本体定义的数据库结构创建对应的数据表，然后根据领域本体定义的各属性字段映射关系，从用户数据库中抽取对应的数据，主要用于各种命名实体的补充。管理工具根据设定好的服务器相关参数访问位于服务器的用户数据库，然后通过文件中具体的参数建立起两个数据库之间的映射关系，在调动数据之后将其重新组合生成本地数据库中的表，如图4；

1-5)数据库备份：为了避免发生意外停机或数据丢失的情况，需要及时对数据库进行备份，可以选择对系统中的所有数据或部分数据进行备份，设定备份周期和机制，并提供备份和恢复功能；

1-6)系统参数设定：管理各类系统参数并提供编辑接口，系统参数包括领域本体文件存放路径、用户信息、数据库参数等。

实现该领域的自然语言理解模块，步骤如下：

以查询语句“航空路社区中，名字叫四姐的女性”为例，进行解析说明。

2-1)语义扩展：将语句转为字符串值str，输入到数据库接口中，通过生成SQL语句将字符串和同义词词典中的字段进行匹配，查询到了存在和字符串相同的记录。输入字符中的 “名字”和同义词词典中的“姓名”匹配，返回“姓名”。输出：航空路社区中，姓名叫四姐的女性；

2-2)进行分词和词性标注。输入：和平路社区中，姓名叫四姐的男性。在上一步得到了标准化的语句序列，然后将这个str输入到分词模块，依据本地数据库中的分词词典对语句进行分块分词，并按照词典中的词语和词性POS的对应关系，以及频率Frequency的优先级，将分词后的各个部分进行词性标注，将结果进行存储。在字典中查询到和词语序列相匹配的词语，将其对应的词性返回到语句中并标注。将分词词典中匹配到的词性 POS返回到分块的语句中。输出：[航空路社区/ns,中/f,，/w,姓名/n, 叫/v,四/n,姐/n,的/ude1,女性/n]；2-3)命名实体识别：指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。将分词处理后的语句块输入到命名实体识别模块中，将它的每一个分块与分词词典中的词语字段做匹配，若是一致，则将它对应的实体种类返回。输出：[航空路社区/ns,中/f,，/w,姓名/n,叫/v,四姐/n,的/ude1, 女性/n]。其中[航空路社区/ns]标注为4，代表为行政化区，[四姐/n]标注为1，代表实体种类为人，[女性/n]标注为1，代表实体种类为人；2-4) 模糊查询处理：对动词v之后，助词f/u/..之间的词进行组合，除此将标有名词词性的词语与字典中的数据进行匹配，返回匹配到的完整词语，组成完整的查询语句。输入：[航空路社区/ns,中/f,，/w,姓名/n,叫/v,四姐/n,的/ude1,女性/n]。将位于v之后，udel前的“四姐/n”与分词词典中的词语字段进行模糊匹配，获得完整的“王四姐”，它的词性是 “nr”，将它返回到语句中形成新的查询语句。查询到的字符替换掉原先的字符，并更新词性，重新生成语句块。输出：[航空路社区/ns,中/f,， /w,姓名/n,叫/v,王四姐/nr,的/ude1,女性/n]；

2-5)词性模板匹配：使用词性模板匹配，对各个条件进行解析，得到各个属性值。采用最大逆向匹配算法结合词性模板，将句子划分m个单条件查询，在该句子中的m＝3，如下所示，将这个二维数组形式的分块输入到词性模板匹配模块。遍历语句分块的词性组成，和词性模板库中的模板字段进行匹配，查询是否有一致的部分，若存在，则返回对应的解析规则，进行处理。对于该句子，在词性模板库中发现两种匹配情况，n->{/航空路社区/ns；//女性/n}，nvnr->{//姓名/n,叫/v,王四姐/nr}所以采用对应的规则进行处理解析，并返回解析结果。返回结果：满足{n,nvnr}这两种查询条件后，对语句进行解析，可以得到下面的结果。输出：对象(行政区划)：名称＝航空路社区；对象(人)：性别＝女性，姓名＝王四姐。查询到两个对象(行政区划和人)和它们的属性；

2-6)确定主查询目标:根据分词时给各个部分标定的命名实体类型，统计每种命名实体出现的次数，以此来确定查询主目标。一般来说属性描述越多的应为主查询对象，其它的对象均为关联查询对象。在这个语句中， “人”的属性出现了两次{“王四姐”，“女性”}； “行政区划”的属性出现了一次{“航空路社区”}，所以人为主查询对象，行政区划为关联查询对象。输出：{主查询对象}人；{关联查询对象}行政区划；

2-7)主查询对象和关联查询对象的值的判断。解析到的主查询目标的所有属性为查询条件，即“性别＝女性，姓名＝王四姐”为查询条件；解析到的含有其他对象属性的对象即为关联查询对象，即“行政区划”为关联查询对象，其对应的属性“航空路社区”为关联查询对象值。输出：{查询条件}性别＝女性，姓名＝王四姐；{关联查询对象值}航空路社区；

2-8)查询类型的判断：常用的表示统计查询的词有：多少、几个、总共、总数、一共等。具体操作中将分词及词性标注后的各项子句存入字符串列表t中，对列表进行遍历，如果句子中出现以上这些词时，查询判断为 “统计查询”，否则为“列表查询”。在本句中不包含表示统计的词语字符，所以是列表查询；

2-9)输出：通过构造的输出字符串，将存储的解析结果输出，即：{查询主对象}人；{关联查询对象}行政区划；{关联查询对象值}航空路社区；{查询条件}姓名＝王四姐,性别＝女；{查询类型}列表查询；

实现自然语言转述模块，在解析完成后，通过特定的接口将解析结果转换为结构化的json格式输出。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种实现汉语近自然语言查询接口的系统，其特征在于，包括：

2.根据权利要求1所述的实现汉语近自然语言查询接口的系统，其特征在于，所说的数据库管理模块具体包括：

步骤2.1、领域本体创建：针对不同的应用领域，建立其基本查询对象、查询属性的本体描述，并记录在XML文件中；这一过程可以直接通过编辑XML文件实现；也可以通过软件界面予以实现，并将本体信息记录在XML文件中；

步骤2.2、领域本体的加载：根据当前的应用领域，从已经存在的领域本体列表中选取对应的本体描述，进而根据本体描述扫描数据库；如果发现对应数据库，则设定此数据库为当前的操作数据库；如果没有发现对应数据库，则为此领域本体创建对应的数据库，并将其设定为当前的操作数据库；

步骤2.3、领域本体编辑：对已有的领域本体进行编辑，主要针对其涉及的查询对象的描述及属性信息的描述进行增加、删除和修改等操作；所有操作均会反映到数据库中；

步骤2.4、本地数据库更新：数据库分为两部分内容：通用语料信息和领域语料信息；通用语料信息可以通过人工输入、用户反馈、批量导入外部语料信息等方式进行更新维护；领域语料信息可以通过人工输入、用户反馈、批量导入领域语料信息等方式进行更新维护；

步骤2.6、系统参数设置：管理各类系统参数并提供编辑接口，系统参数包括领域本体文件存放路径、用户信息、数据库参数。

3.根据权利要求2所述的实现汉语近自然语言查询接口的系统，其特征在于，所说的本地数据库包括：

语言处理和语义提取是通过JDBC实现对数据库的访问；该结构可以作为一个独立运行系统，通过ODBC或JDBC连接到现有的DBMS之上，充分实现了DBMS的可移植性。

4.根据权利要求1所述的实现汉语近自然语言查询接口的系统，其特征在于，所说的自然语言解析模块实现方法包括以下步骤：

步骤4.4、对句法分析结果进行语义分析。

5.根据权利要求4所述的实现汉语近自然语言查询接口的系统，其特征在于，所说的步骤4.1中，优先分词词典是按照设定的提取规则从现有的数据库字典去生成的领域相关的词典，即为专用词典，再使用通用词典，包括了基本的语言词语，如查询动词、逻辑词、标点符号、关系词、函数词。

6.根据权利要求4所述的实现汉语近自然语言查询接口的系统，其特征在于，所说的基于数据库语义的句法分析，具有如下特征：

7.根据权利要求1所述的实现汉语近自然语言查询接口的系统，其特征在于，还设置有自然语言转述模块用于将经过自然语言解析模块处理的中间语言转换为结构化的json格式输出。