CN108228701A - 一种实现汉语近自然语言查询接口的系统 - Google Patents
一种实现汉语近自然语言查询接口的系统 Download PDFInfo
- Publication number
- CN108228701A CN108228701A CN201710996119.2A CN201710996119A CN108228701A CN 108228701 A CN108228701 A CN 108228701A CN 201710996119 A CN201710996119 A CN 201710996119A CN 108228701 A CN108228701 A CN 108228701A
- Authority
- CN
- China
- Prior art keywords
- database
- language
- dictionary
- field
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明属于计算机及信息服务技术领域,涉及一种实现汉语近自然语言查询接口的系统。包括设置:一个用于进行数据库操作的数据库管理模块、一个进行词法和语义句法分析的自然语言解析模块、一个用于生成中间语言的自然语言转述模块。各模块预留有针对相关领域查询操作的接口。本发明通过数据库管理模块,可以实现对不同领域任务需求进行相应配置,建立相应的查询系统。本发明可广泛用于不同领域的信息查询服务系统等。
Description
技术领域
发明属于计算机及信息服务技术,特别涉及可根据不同领域特点和任 务需求,快速实现汉语查询语句理解的方法。
背景技术
语查询接口,是以自然语言为媒介与使用者进行信息交流的计算机程 序集合,计算机通过接收用户的输入,经过解析处理后,能够给出结构化 的查询语言,通过相应操作给出回答。
自然语言是人类最常用的表达形式,语音、文本、图像等大众信息载 体通常都是运用自然语言来描述和表达的,而在搜索、电商、广告、社交、 语音等领域中,自然语言更是随处可见的交流方式,所以自然语言解析成 为计算机了解用户意图的关键技术。如果计算机能够理解自然语言,用户 就能够通过自然语言使用各种软件,因此,自然语言理解一直是人工智能 中的最活跃的研究领域之一。自然语言接口可广泛应用于多种信息服务领域,例如航班信息查询、酒店预订查询、地理信息查询等。
自然语言处理(NLP,Natural Language Processing)是研究如何能 让计算机理解人们日常使用的语言,使得计算机懂得自然语言的含义的课 题,所以自然语言处理又叫做自然语言理解(NLU, NaturalLanguageUnderstanding),也称为计算语言学(ComputationalLinguistics)。
一方面,它是语言信息处理的一个分支,另一方面是人工智能的核心课题 之一。自然语言和各种符号语言一样,是人们进行推理和交流的桥梁,由 于语言在智能活动中具有重要的作用,当计算机在不同领域逐步替代人类 完成各项工作时,人们也期待着计算机在自然语言的处理上能够接近甚至 达到人的智能水平。自然语言处理目前在这方面所进行的工作包括自然语 言人机接口、问答系统、机器翻译、文摘生成、情报检索等。
自然语言接口作为自然语言理解的有效应用之一,正受到越来越广泛 的关注。所谓自然语言接口就是允许人们用某种自然语言的子集在限制领 域内同计算机进行通讯、交互。自然语言接口是人工智能与数据库技术相 结合的产物,涉及到人工智能、自然语言处理、数据库系统和人机接口等 方面的研究。许多年来,它作为人工智能接口的重要组成部分引起了广泛 的兴趣,成为具有重要理论价值和巨大实用价值的研究领域。、
自然语言理解模块的研究由来已久,一般地,自然语言查询处理有以 下不同的策略:(1)面向特定应用领域的分析方法,多出现在早期系统, 系统内只有专用词典,分析方法以关键字匹配和模式匹配为主;(2)面向 通用领域的分析方法,采用一般的自然语言处理方法,如扩充转移网络, 概念从属理论等,分析过程包含了语法分析与语义分析,系统设有专用和 通用词典;(3)面向数据库应用领域的分析方法,结合数据库领域特点采 用受限的综合语义分析法,语法语义分析合一,设有专用和通用词典。
目前,汉语查询接口的实现是一个较困难的过程。由于当前技术水平 的限制,自然语言理解、自然语言转述模块都要根据具体任务来设计,交 流的信息和领域任务有关,这些信息之间互相联系,它们整体构成了领域 概念,这些系统的可移植性差,具有较大的局限性。
发明内容
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种实现汉语近自然语言查询接口的系统,其特征在于,包括:
数据库管理模块:用于对于领域数据的选择以及数据的更新和完善;
自然语言解析模块:用于对每一用户语句进行理解,分析结果用定义 的结构化的中间语言表示;
自然语言转述模块:根据自然语言理解模块的结果,将中间语言转换 成json格式输出。
上述各模块预留有针对相关领域查询操作的接口。
在上述的实现汉语近自然语言查询接口的系统,所说的数据库管理模 块具体包括:
步骤2.1、领域本体创建:针对不同的应用领域,建立其基本查询对 象、查询属性的本体描述,并记录在XML文件中。这一过程可以直接通过 编辑XML文件实现;也可以通过软件界面予以实现,并将本体信息记录在 XML文件中。
步骤2.2、领域本体的加载:根据当前的应用领域,从已经存在的领域 本体列表中选取对应的本体描述,进而根据本体描述扫描数据库。如果发 现对应数据库,则设定此数据库为当前的操作数据库;如果没有发现对应 数据库,则为此领域本体创建对应的数据库,并将其设定为当前的操作数 据库。
步骤2.3、领域本体编辑:对已有的领域本体进行编辑,主要针对其 涉及的查询对象的描述及属性信息的描述进行增加、删除和修改等操作。 所有操作均会反映到数据库中。
步骤2.4、本地数据库更新:数据库分为两部分内容:通用语料信息和 领域语料信息。通用语料信息可以通过人工输入、用户反馈、批量导入外 部语料信息等方式进行更新维护;领域语料信息可以通过人工输入、用户 反馈、批量导入领域语料信息等方式进行更新维护。
步骤2.5、数据库备份:为了避免发生意外停机或数据丢失的情况, 需要及时对数据库进行备份,可以选择对系统中的所有数据或部分数据进 行备份,设定备份周期和机制,并提供备份和恢复功能;
步骤2.6、系统参数设置:管理各类系统参数并提供编辑接口,系统参 数包括领域本体文件存放路径、用户信息、数据库参数等。
在上述的实现汉语近自然语言查询接口的系统,所说的本地数据库包 括:
数据库包括领域本体库、语料库、分词词典、词性标注词典、同义词 词典、数据库语义词典以及后续用于句法分析的词性模板库;
语言处理和语义提取是通过JDBC实现对数据库的访问。该结构可以作 为一个独立运行系统,通过ODBC或JDBC连接到现有的DBMS之上,充分实 现了DBMS的可移植性。
在上述的实现汉语近自然语言查询接口的系统,所说的自然语言解析 模块实现方法包括以下步骤:
步骤4.1、从数据库中读取领域本体库、语料库、分词词典、词性标注 词典、同义词词典、数据库语义词典以及后续用于句法分析的词性模板库;
步骤4.2、对输入的汉语查询语句进行分词、词性标注、语义扩展以及 命名实体识别等相关操作;
步骤4.3、将经过词法分析的结果进行基于数据库语义的句法分析;
步骤4.4、对句法分析结果进行语义分析。
在上述的实现汉语近自然语言查询接口的系统,所说的步骤4.1中, 优先分词词典是按照设定的提取规则从现有的数据库字典去生成的领域相 关的词典,即为专用词典,再使用通用词典,包括了基本的语言词语,如 查询动词、逻辑词、标点符号、关系词、函数词。
在上述的实现汉语近自然语言查询接口的系统,所说的基于数据库语 义的句法分析,具有如下特征:
在句法分析过程中是以数据库各对象的实体名、属性及属性值、关系 以及相关领域知识为基础进行分析,将数据库概念和领域概念结合为一体, 从而提高分析的准确性,并在一定程度消除了分词及句法分析时的歧义问 题;
对于查询语句的词语的不完整输入,在句法分析过程中通过模糊查询 处理,将一些省略的查询进行规范化的完整输出。
在上述的实现汉语近自然语言查询接口的系统,还设置有自然语言转 述模块用于将经过自然语言解析模块处理的中间语言转换为结构化的json 格式输出。
因此,本发明具有如下优点:1、可以快速有效建立用于信息服务的汉 语近自然语言查询接口;2、自然语言理解模块可根据领域任务配置,提 出了基于领域本体与词性模板匹配的解析方法,算法实现起来简单,但有 较高的解析准确率;3、领域本体和数据库管理模板使系统的可移植性得 以实现,能够满足不同领域的需求,还可以实现数据的动态更新和完善。
本发明可用于建立多种信息服务系统,如地理信息查询、航班信息查 询、酒店服务查询、电
附图说明
图1为本发明的系统总体框架示意图。
图2为自然语言理解模块示意图。
图3为数据库管理模块功能组成图。
图4为数据迁移示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的 说明。
实施例:
一、首先介绍一下本发明的系统结构。
本发明提出一种实现汉语近自然语言查询接口的方法,包括以下步骤:
1)设置一个自然语言解析模块,用于对每一条输入的近自然语句进行 语
义句法分析,分析结果用定义的固定格式的中间语言表示;
2)设置一个数据库管理模块,用于进行领域数据的选择以及数据的更 新和完善;
3)设置一个自然语言转述模块,根据自然语言理解模块的结果,将中 间语言转换成json格式的输出。
4)上述1)-3)中各模块预留有针对相关领域查询操作的接口。所说的 数据库管理模块包括如下内容和功能:
a.领域本体创建:根据应用领域特点,创建对应该领域的XML文件, 记录有该领域的主要查询对象、查询属性等领域本体信息;
b.领域本体编辑:对已有的领域本体进行编辑,主要针对其涉及的查 询对象的描述及属性信息的描述进行增加、删除和修改等操作。所有操作 均会反映到数据库中;
c.领域本体的加载:根据当前的应用领域,从已经存在的领域本体列 表中选取对应的本体描述,进而根据本体描述扫描数据库。如果发现对应 数据库,则设定此数据库为当前的操作数据库;如果没有发现对应数据库, 则为此领域本体创建对应的数据库,并将其设定为当前的操作数据库;
d.本地数据库更新:数据库分为两部分内容:通用语料信息和领域语 料信息。通用语料信息可以通过人工输入、用户反馈、批量导入外部语料 信息等方式进行更新维护;
领域语料信息可以通过人工输入、用户反馈、批量导入领域语料信息 等方式进行更新维护;
e.数据库备份:为了避免发生意外停机或数据丢失的情况,需要及时 对数据库进行备份,可以选择对系统中的所有数据或部分数据进行备份, 设定备份周期和机制,并提供备份和恢复功能;
f.系统参数设置:管理各类系统参数并提供编辑接口,系统参数包括 领域本体文件存放路径、用户信息、数据库参数等。
所说的数据库管理模块本地数据库具有如下特征:
a.数据库包括领域本体库、语料库、分词词典、词性标注词典、同义 词词典、数据库语义词典以及后续用于句法分析的词性模板库。其中语料 库中包含的主要是各类常用字典信息;
b.语言处理和语义提取是通过JDBC实现对数据库的访问。该结构可以 作为一个独立运行系统,通过ODBC或JDBC连接到现有的DBMS之上,充分 实现了DBMS的可移植性。
所说的自然语言理解模块是一个强大的汉语查询语言分析器,它使用 基于领域本体与词性模板匹配的解析方法来描述查询语言,实现方法包括 以下步骤:
通过设置有数据库连接路径的配置文件连接到数据库,读取语料库、 分词词典、词性标注词典、同义词词典、数据库语义词典、词性模板库等;
1-1)对输入的汉语查询语句进行词法分析,实现方法如下:
a.通过分词词典对输入的汉语查询语句进行分块分词,然后存储;
b.将经过分词处理的词语序列通过同义词词典和语料库进行语义扩 展,得到标准化的输入;
c.经得到的标准化的词语序列,根据词性标注库中的词性以及频率的 优先级,进行词性标注,得到词性标注序列;
1-2)对词性标注序列进行语义句法分析,实现方法如下:
a.识别输入文本中具有特定意义的实体,也就是对应于领域本体库中 具有实体语义的词语。将每一个分块与领域专用分词词典中的值做匹配, 若一致,则将其对应的实体种类返回到语句块中;
b.对于省略输入的词语进行模糊查询处理。将动词之后,助词之前的 词进行组合,除此将标有名词词性的词语与对应的实体表中的数据进行匹 配,返回完整标准化词语,组成完整的查询语句;
c.通过词性模板库,进行词性模板匹配,对不同条件进行解析,得到 属性值。对多条件查询语句,采用最大逆向匹配算法结合词性模板,将句 子划分为m个单条件查询,匹配到不同的词性模板,根据不同词性序列的 处理方法进行解析得到相应属性值;
d.确定主查询目标。根据分词时得到的不同实体种类,统计每种实体 种类出现的次数,从而确定查询主目标。一般来说属性描述越多的应为主 查询对象,其他的对象为关联查询对象。当出现次数相同时,根据查询语 句特点,靠后的实体为查询对象;
e.查询条件的判断。分词序列中所有属于主查询目标的属性为查询条 件,解析到的含有其他对象属性的对象即为关联查询对象,其对应的属性 为关联查询对象值;
f.查询类型判断。根据汉语查询语句的表达特点,常用的表示统计查 询的词有:多少、几个、总共、一共等,所以在查询判断时,如果句子中 出现这些词,则判断为“统计查询”,否则为“列表查询”。
所说的自然语言转述模块用于将经过自然语言解析模块处理的中间语 言转换为结构化的json格式输出。
二、下面结合具体实施例进行介绍。
本系统的建立步骤如下:
1)建立系统所需的各类领域本体和通用数据库、导入或采集领域语料 信息;
2)实现该领域的数据库管理模块。
3)实现该领域的自然语言理解模块。
4)实现该领域的自然语言转述模块。
5)构建该领域的查询接口系统。
实现该领域的数据管理模块,方法如下:
1-1)领域本体以xml文件的方式进行记录和管理,存放在系统指定路径 下,用来记录当前应用领域的领域本体信息、语料库的结构以及数据间的映射 关系。内容包括服务器数据库配置、本地数据库配置、人{姓名}、属性{pos->nr、 NE->人、NEtype->姓名}等;
1-2)领域本体创建:根据应用领域特点,创建对应该领域的XML文件,并 在XML文件中记录该领域的主要查询对象、查询属性等领域本体信息,对应 内容;
1-3)领域本体加载:根据当前的应用领域,从已经存在的领域本体列 表中选取对应的本体描述,进而根据本体描述扫描数据库。如果发现对应 数据库,则设定此数据库为当前的操作数据库;如果没有发现对应数据库, 则为此领域本体创建对应的数据库,并将其设定为当前的操作数据库;
1-3)领域本体编辑:对已有的领域本体进行编辑,主要针对其涉及的 查询对象的描述及属性信息的描述进行增加、删除和修改等操作。所有操 作均会反映到数据库中;
1-4)本地数据库更新:首先根据领域本体定义的数据库结构创建对应 的数据表,然后根据领域本体定义的各属性字段映射关系,从用户数据库 中抽取对应的数据,主要用于各种命名实体的补充。管理工具根据设定好 的服务器相关参数访问位于服务器的用户数据库,然后通过文件中具体的 参数建立起两个数据库之间的映射关系,在调动数据之后将其重新组合 生成本地数据库中的表,如图4;
1-5)数据库备份:为了避免发生意外停机或数据丢失的情况,需要及 时对数据库进行备份,可以选择对系统中的所有数据或部分数据进行备份, 设定备份周期和机制,并提供备份和恢复功能;
1-6)系统参数设定:管理各类系统参数并提供编辑接口,系统参数 包括领域本体文件存放路径、用户信息、数据库参数等。
实现该领域的自然语言理解模块,步骤如下:
以查询语句“航空路社区中,名字叫四姐的女性”为例,进行解析说 明。
2-1)语义扩展:将语句转为字符串值str,输入到数据库接口中,通过 生成SQL语句将字符串和同义词词典中的字段进行匹配,查询到了存在和字 符串相同的记录。输入字符中的 “名字”和同义词词典中的“姓名”匹配,返回“姓名”。输出:航空路 社区中,姓名叫四姐的女性;
2-2)进行分词和词性标注。输入:和平路社区中,姓名叫四姐的男性。 在上一步得到了标准化的语句序列,然后将这个str输入到分词模块,依据 本地数据库中的分词词典对语句进行分块分词,并按照词典中的词语和词 性POS的对应关系,以及频率Frequency的优先级,将分词后的各个部分进 行词性标注,将结果进行存储。在字典中查询到和词语序列相匹配的 词语,将其对应的词性返回到语句中并标注。将分词词典中匹配到的词性 POS返回到分块的语句中。输出:[航空路社区/ns,中/f,,/w,姓名/n, 叫/v,四/n,姐/n,的/ude1,女性/n];2-3)命名实体识别:指识别文本 中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。将 分词处理后的语句块输入到命名实体识别模块中,将它的每一个分块与分 词词典中的词语字段做匹配,若是一致,则将它对应的实体种类返回。输 出:[航空路社区/ns,中/f,,/w,姓名/n,叫/v,四姐/n,的/ude1, 女性/n]。其中[航空路社区/ns]标注为4,代表为行政化区,[四姐/n]标注 为1,代表实体种类为人,[女性/n]标注为1,代表实体种类为人;2-4) 模糊查询处理:对动词v之后,助词f/u/..之间的词进行组合,除此将标 有名词词性的词语与字典中的数据进行匹配,返回匹配到的完整词语,组 成完整的查询语句。输入:[航空路社区/ns,中/f,,/w,姓名/n,叫/v,四 姐/n,的/ude1,女性/n]。将位于v之后,udel前的“四姐/n”与分词词 典中的词语字段进行模糊匹配,获得完整的“王四姐”,它的词性是 “nr”,将它返回到语句中形成新的查询语句。查询到的字符替换掉原先的字符,并更新词性,重新生成语句块。输出:[航空路社区/ns,中/f,, /w,姓名/n,叫/v,王四姐/nr,的/ude1,女性/n];
2-5)词性模板匹配:使用词性模板匹配,对各个条件进行解析,得到 各个属性值。采用最大逆向匹配算法结合词性模板,将句子划分m个单条件 查询,在该句子中的m=3,如下所示,将这个二维数组形式的分块输入到词 性模板匹配模块。遍历语句分块的词性组成,和词性模板库中的模板字段 进行匹配,查询是否有一致的部分,若存在,则返回对应的解析规则,进 行处理。对于该句子,在词性模板库中发现两种匹配情况,n->{/航空路社区/ns;//女性/n},nvnr->{//姓名/n,叫/v,王四姐/nr}所以采用对应的 规则进行处理解析,并返回解析结果。返回结果:满足{n,nvnr}这两种查 询条件后,对语句进行解析,可以得到下面的结果。输出:对象(行政区 划):名称=航空路社区;对象(人):性别=女性,姓名=王四姐。查询到两 个对象(行政区划和人)和它们的属性;
2-6)确定主查询目标:根据分词时给各个部分标定的命名实体类型,统 计每种命名实体出现的次数,以此来确定查询主目标。一般来说属性描述 越多的应为主查询对象,其它的对象均为关联查询对象。在这个语句中, “人”的属性出现了两次{“王四姐”,“女性”}; “行政区划”的属性出现了一次{“航空路社区”},所以人为主查询对象, 行政区划为关联查询 对象。输出:{主查询对象}人;{关联查询对象}行政区划;
2-7)主查询对象和关联查询对象的值的判断。解析到的主查询目标的 所有属性为查询条件,即“性别=女性,姓名=王四姐”为查询条件;解析 到的含有其他对象属性的对象即为关联查询对象,即“行政区划”为关联 查询对象,其对应的属性“航空路社区”为关联查询对象值。输出:{查 询条件}性别=女性,姓名=王四姐;{关联查询对象值}航空路社区;
2-8)查询类型的判断:常用的表示统计查询的词有:多少、几个、总 共、总数、一共等。具体操作中将分词及词性标注后的各项子句存入字符 串列表t中,对列表进行遍历,如果句子中出现以上这些词时,查询判断为 “统计查询”,否则为“列表查询”。在本句中不包含表示统计的词语字 符,所以是列表查询;
2-9)输出:通过构造的输出字符串,将存储的解析结果输出,即:{查 询主对象}人;{关联查询对象}行政区划;{关联查询对象值}航空路社 区;{查询条件}姓名=王四姐,性别=女;{查询类型}列表查询;
实现自然语言转述模块,在解析完成后,通过特定的接口将解析结果转 换为结构化的json格式输出。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明 所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或 补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权 利要求书所定义的范围。
Claims (7)
1.一种实现汉语近自然语言查询接口的系统,其特征在于,包括:
数据库管理模块:用于对于领域数据的选择以及数据的更新和完善;
自然语言解析模块:用于对每一用户语句进行理解,分析结果用定义的结构化的中间语言表示;
自然语言转述模块:根据自然语言理解模块的结果,将中间语言转换成json格式输出。
2.根据权利要求1所述的实现汉语近自然语言查询接口的系统,其特征在于,所说的数据库管理模块具体包括:
步骤2.1、领域本体创建:针对不同的应用领域,建立其基本查询对象、查询属性的本体描述,并记录在XML文件中;这一过程可以直接通过编辑XML文件实现;也可以通过软件界面予以实现,并将本体信息记录在XML文件中;
步骤2.2、领域本体的加载:根据当前的应用领域,从已经存在的领域本体列表中选取对应的本体描述,进而根据本体描述扫描数据库;如果发现对应数据库,则设定此数据库为当前的操作数据库;如果没有发现对应数据库,则为此领域本体创建对应的数据库,并将其设定为当前的操作数据库;
步骤2.3、领域本体编辑:对已有的领域本体进行编辑,主要针对其涉及的查询对象的描述及属性信息的描述进行增加、删除和修改等操作;所有操作均会反映到数据库中;
步骤2.4、本地数据库更新:数据库分为两部分内容:通用语料信息和领域语料信息;通用语料信息可以通过人工输入、用户反馈、批量导入外部语料信息等方式进行更新维护;领域语料信息可以通过人工输入、用户反馈、批量导入领域语料信息等方式进行更新维护;
步骤2.5、数据库备份:为了避免发生意外停机或数据丢失的情况,需要及时对数据库进行备份,可以选择对系统中的所有数据或部分数据进行备份,设定备份周期和机制,并提供备份和恢复功能;
步骤2.6、系统参数设置:管理各类系统参数并提供编辑接口,系统参数包括领域本体文件存放路径、用户信息、数据库参数。
3.根据权利要求2所述的实现汉语近自然语言查询接口的系统,其特征在于,所说的本地数据库包括:
数据库包括领域本体库、语料库、分词词典、词性标注词典、同义词词典、数据库语义词典以及后续用于句法分析的词性模板库;
语言处理和语义提取是通过JDBC实现对数据库的访问;该结构可以作为一个独立运行系统,通过ODBC或JDBC连接到现有的DBMS之上,充分实现了DBMS的可移植性。
4.根据权利要求1所述的实现汉语近自然语言查询接口的系统,其特征在于,所说的自然语言解析模块实现方法包括以下步骤:
步骤4.1、从数据库中读取领域本体库、语料库、分词词典、词性标注词典、同义词词典、数据库语义词典以及后续用于句法分析的词性模板库;
步骤4.2、对输入的汉语查询语句进行分词、词性标注、语义扩展以及命名实体识别等相关操作;
步骤4.3、将经过词法分析的结果进行基于数据库语义的句法分析;
步骤4.4、对句法分析结果进行语义分析。
5.根据权利要求4所述的实现汉语近自然语言查询接口的系统,其特征在于,所说的步骤4.1中,优先分词词典是按照设定的提取规则从现有的数据库字典去生成的领域相关的词典,即为专用词典,再使用通用词典,包括了基本的语言词语,如查询动词、逻辑词、标点符号、关系词、函数词。
6.根据权利要求4所述的实现汉语近自然语言查询接口的系统,其特征在于,所说的基于数据库语义的句法分析,具有如下特征:
在句法分析过程中是以数据库各对象的实体名、属性及属性值、关系以及相关领域知识为基础进行分析,将数据库概念和领域概念结合为一体,从而提高分析的准确性,并在一定程度消除了分词及句法分析时的歧义问题;
对于查询语句的词语的不完整输入,在句法分析过程中通过模糊查询处理,将一些省略的查询进行规范化的完整输出。
7.根据权利要求1所述的实现汉语近自然语言查询接口的系统,其特征在于,还设置有自然语言转述模块用于将经过自然语言解析模块处理的中间语言转换为结构化的json格式输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710996119.2A CN108228701A (zh) | 2017-10-23 | 2017-10-23 | 一种实现汉语近自然语言查询接口的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710996119.2A CN108228701A (zh) | 2017-10-23 | 2017-10-23 | 一种实现汉语近自然语言查询接口的系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228701A true CN108228701A (zh) | 2018-06-29 |
Family
ID=62654841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710996119.2A Pending CN108228701A (zh) | 2017-10-23 | 2017-10-23 | 一种实现汉语近自然语言查询接口的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228701A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684395A (zh) * | 2018-12-14 | 2019-04-26 | 浪潮软件集团有限公司 | 一种基于自然语言处理的可视化数据接口通用解析方法 |
CN112559690A (zh) * | 2020-12-21 | 2021-03-26 | 广东珠江智联信息科技股份有限公司 | 一种自然语言智能数据建模技术 |
CN112784027A (zh) * | 2021-01-21 | 2021-05-11 | 军事科学院系统工程研究院系统总体研究所 | 一种智联网中的自然语言交互系统及方法 |
CN112805714A (zh) * | 2018-10-08 | 2021-05-14 | 塔谱软件公司 | 使用自然语言构造为数据可视化确定细节级别 |
CN113033159A (zh) * | 2021-04-28 | 2021-06-25 | 高小翎 | 智能高效的印刷业管理系统nlqi改进方法 |
CN114048226A (zh) * | 2021-11-12 | 2022-02-15 | 国家电网有限公司大数据中心 | 一种数据查询方法、装置、电子设备和存储介质 |
CN114090721A (zh) * | 2022-01-19 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 基于自然语言数据进行查询、数据更新的方法及装置 |
CN114238467A (zh) * | 2021-12-01 | 2022-03-25 | 中冶赛迪重庆信息技术有限公司 | 一种结构化数据分析方法及系统 |
CN115859968A (zh) * | 2023-02-27 | 2023-03-28 | 四川省计算机研究院 | 基于自然语言解析及机器学习的政策颗粒化分析系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582073A (zh) * | 2008-12-31 | 2009-11-18 | 北京中机科海科技发展有限公司 | 一种基于领域本体的智能检索系统及方法 |
CN101694629A (zh) * | 2009-10-23 | 2010-04-14 | 北京邮电大学 | 一种基于本体的上下文感知应用平台及其工作方法 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
WO2010077057A2 (ko) * | 2008-12-31 | 2010-07-08 | Kim Chang-Mo | 검색 결과 문서에서 검색어 시작 부분으로 위치 이동하는 검색 시스템 및 그 검색 방법 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107491556A (zh) * | 2017-09-04 | 2017-12-19 | 湖北地信科技集团股份有限公司 | 时空全要素语义查询服务系统及其方法 |
-
2017
- 2017-10-23 CN CN201710996119.2A patent/CN108228701A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582073A (zh) * | 2008-12-31 | 2009-11-18 | 北京中机科海科技发展有限公司 | 一种基于领域本体的智能检索系统及方法 |
WO2010077057A2 (ko) * | 2008-12-31 | 2010-07-08 | Kim Chang-Mo | 검색 결과 문서에서 검색어 시작 부분으로 위치 이동하는 검색 시스템 및 그 검색 방법 |
CN101694629A (zh) * | 2009-10-23 | 2010-04-14 | 北京邮电大学 | 一种基于本体的上下文感知应用平台及其工作方法 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建系统及方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107491556A (zh) * | 2017-09-04 | 2017-12-19 | 湖北地信科技集团股份有限公司 | 时空全要素语义查询服务系统及其方法 |
Non-Patent Citations (1)
Title |
---|
宋甜: "基于语义依存文法分析模型的受限自然语言查询接口研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112805714A (zh) * | 2018-10-08 | 2021-05-14 | 塔谱软件公司 | 使用自然语言构造为数据可视化确定细节级别 |
CN112805714B (zh) * | 2018-10-08 | 2022-06-17 | 塔谱软件公司 | 使用自然语言构造为数据可视化确定细节级别 |
CN109684395B (zh) * | 2018-12-14 | 2023-02-10 | 浪潮软件集团有限公司 | 一种基于自然语言处理的可视化数据接口通用解析方法 |
CN109684395A (zh) * | 2018-12-14 | 2019-04-26 | 浪潮软件集团有限公司 | 一种基于自然语言处理的可视化数据接口通用解析方法 |
CN112559690A (zh) * | 2020-12-21 | 2021-03-26 | 广东珠江智联信息科技股份有限公司 | 一种自然语言智能数据建模技术 |
CN112784027A (zh) * | 2021-01-21 | 2021-05-11 | 军事科学院系统工程研究院系统总体研究所 | 一种智联网中的自然语言交互系统及方法 |
CN112784027B (zh) * | 2021-01-21 | 2024-05-14 | 军事科学院系统工程研究院系统总体研究所 | 一种智联网中的自然语言交互系统及方法 |
CN113033159A (zh) * | 2021-04-28 | 2021-06-25 | 高小翎 | 智能高效的印刷业管理系统nlqi改进方法 |
CN114048226A (zh) * | 2021-11-12 | 2022-02-15 | 国家电网有限公司大数据中心 | 一种数据查询方法、装置、电子设备和存储介质 |
CN114238467A (zh) * | 2021-12-01 | 2022-03-25 | 中冶赛迪重庆信息技术有限公司 | 一种结构化数据分析方法及系统 |
CN114090721A (zh) * | 2022-01-19 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 基于自然语言数据进行查询、数据更新的方法及装置 |
CN115859968A (zh) * | 2023-02-27 | 2023-03-28 | 四川省计算机研究院 | 基于自然语言解析及机器学习的政策颗粒化分析系统 |
CN115859968B (zh) * | 2023-02-27 | 2023-11-21 | 四川省计算机研究院 | 一种基于自然语言解析及机器学习的政策颗粒化分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228701A (zh) | 一种实现汉语近自然语言查询接口的系统 | |
CN109947921B (zh) | 一种基于自然语言处理的智能问答系统 | |
CN113704451A (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN111598702A (zh) | 一种基于知识图谱的风险投资语义搜索的方法 | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
Abdelnabi et al. | Generating UML class diagram using NLP techniques and heuristic rules | |
CN109947952A (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN113282762A (zh) | 知识图谱构建方法、装置、电子设备和存储介质 | |
Das et al. | MyNLIDB: a natural language interface to database | |
Barbieri et al. | Towards a natural language conversational interface for process mining | |
CN111241299A (zh) | 一种法律咨询的知识图谱自动构建方法及其检索系统 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN113761919A (zh) | 一种口语化短文本的实体属性提取方法及电子装置 | |
CN114722159B (zh) | 针对数控机床制造资源的多源异构数据处理方法及系统 | |
Revanth et al. | Nl2sql: Natural language to sql query translator | |
CN109828775A (zh) | 一种多语言翻译文本内容的web管理系统及方法 | |
CN113515630B (zh) | 三元组生成和校验方法、装置、电子设备和存储介质 | |
Meng et al. | Design and Implementation of Knowledge Graph Platform of Power Marketing | |
CN113868312A (zh) | 多方法融合的机构匹配方法、装置、设备和存储介质 | |
CN113360680A (zh) | 一种基于电力审计制度的无监督知识图谱构建方法 | |
CN113779961A (zh) | 一种自然语言文本的惯用句式提取方法及电子装置 | |
Chai et al. | An interactive English–Chinese translation system based on GLA algorithm | |
Mandal et al. | Natural Language Query in Bengali to SQL Generation Using Named Entity Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |