CN117034946A

CN117034946A - 一种中文文本语义解析与重构系统

Info

Publication number: CN117034946A
Application number: CN202310727880.1A
Authority: CN
Inventors: 吕志坚; 徐冠宁; 熊蕊; 杜丽萍; 李瑛�; 何余良
Original assignee: Beijing Ruobin Robot Technology Co ltd; Beijing Science And Tech Research Inst
Current assignee: Beijing Ruobin Robot Technology Co ltd; Beijing Science And Tech Research Inst
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-11-10

Abstract

本发明公开了一种中文文本语义解析与重构系统，包括：文本预处理模块用于生成文本向量，字体查询模块用于处理概念相关度查询和词项的概念判断，以支撑查询语义扩展和概念检索的需求，语义资源模块用于对同义词词林资源进行包装，回应有关同义词的查询请求，查询模块和语义搜索模块与语义资源模块发生交互，查询模块用于实现概念扩展和非概念内容的关键词扩展，语义搜索模块用于针对用户的查询请求，进行查询和相关文本的相关性计算并按照相关性大小对相关文本进行排序，交互模块用于与用户交互。本发明支持检索系统对半结构化文本的统一文本表示和统一处理，弥补了传统的检索系统忽略文本结构信息的不足。

Description

一种中文文本语义解析与重构系统

技术领域

本发明涉及文本解析领域，尤其涉及一种中文文本语义解析与重构系统。

背景技术

近年来，语义解析领域成为了自然语言处理中的研究热点，同时神经网络技术也用在了自然语言处理的各个方面，因此结合神经网络技术的高效表达能力而构建的语义解析研究十分重要。

当前，智能机器人技术在互联网产品的应用相对比较集中，但是显式模式定义的欠缺等给其检索带来了困难和不确定性，很多检索系统只是将文本作为一个简单的词序列，忽略了文本的结构信息，割裂了半结构化文本的逻辑结构与其语义内涵之间的关系。

发明内容

本发明为了解决以上问题，提供了一种中文文本语义解析与重构系统，可以实现导航规划自动化、智能化航行。

为实现上述目的，本发明所采用的技术方案如下：

一种中文文本语义解析与重构系统，包括：文本预处理模块、字体查询模块、语义资源模块、查询模块、语义搜索模块以及交互模块，所述文本预处理模块用于生成文本向量，所述字体查询模块用于处理概念相关度查询和词项的概念判断，以支撑查询语义扩展和概念检索的需求，所述语义资源模块用于对同义词词林资源进行包装，回应有关同义词的查询请求，所述查询模块和所述语义搜索模块与所述语义资源模块发生交互，所述查询模块用于实现概念扩展和非概念内容的关键词扩展，所述语义搜索模块用于针对用户的查询请求，进行查询和相关文本的相关性计算并按照相关性大小对相关文本进行排序，所述交互模块用于与用户交互。

可选的，所述文本预处理模块包括分词模块、词项设定模块、索引模块。

可选的，所述分词模块用于将文本分词得到的关键词进行统计计算，得到每个词项的权重从而给文本建立索引。

可选的，所述词项设定模块用于针对统一的XML描述文本得到最后的文本向量表示，其中，模块中作为输入的XML描述文本通过对网络文本使用信息抽取技术得到。

可选的，所述索引模块通过基于可扩展哈希的倒排索引实现，其使每个桶最多占一个存储块，从而将查询时间缩短。

可选的，所述字体查询模块用于判断一个词项是否为本体概念，对一个概念返回其候选扩展概念集，即与概念的相关度大于一定阀值的概念集合，得到一个查询候选扩展概念中的中每个概念和查询概念向量的相关性。

可选的，所述查询模块用于对查询的概念部分进行概念扩展，对非概念部分进行同义词扩展。

可选的，所述语义搜索模块用于针对扩展后的查询向量，语义搜索模块首先通过索引得到相关文本和相关文本对应的文本查询相关概念集合和文本查询相关关键词集合，然后针对每个相关文本计算其与查询概念向量和查询关键词向量的相关性，最后对计算出的查询概念相关性和查询关键词相关性进行融合，最终得到相关文本与查询的相关性得分并按照相关性得分大小将相关文本排序。

可选的，所述语义资源模块利用同义词词林扩展版提供有关同义词的查询操作，在查询关键词扩展操作中，对非概念关键词得到其同义词集，在语义搜索模块中的文本查询概念集的生成过程中，将一个查询概念的同义概念的按比例把权重叠加到一起以组成合理的查询文本概念向量。

可选的，所述交互模块用于接受用户的查询语句，将其转交给查询模块以生成扩展后的查询向量，然后将扩展后的查询向量传递给语义搜索模块，最终将语义搜索模块中生成的按相关性大小从大到小排序后的相关文本呈现给用户。

本发明与现有技术相比，所取得的技术进步在于：

本发明支持检索系统对半结构化文本的统一文本表示和统一处理，弥补了传统的检索系统忽略文本结构信息的不足，查询语义扩展融合概念扩展和关键词扩展，能在一定程度上弥补用户查询的模糊性带来的不足，减轻用户构造精确查询的压力，提高检索系统的查全率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明的结构原理图。

图2为本发明分词模块的划分图。

具体实施方式

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。在以下实施例的描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

实施例一

如图1所示，本发明公开了一种中文文本语义解析与重构系统，包括文本预处理模块、字体查询模块、语义资源模块、查询模块、语义搜索模块以及交互模块，文本预处理模块首先将抓取的网络文本统一转化为XML描述文本，然后对XML描述文本进行分词和密度扩散等处理，得到每个文本词项的合理权重，最终将文本表示为文本向量，并将文本向量存入索引。

字体查询模块负责处理概念相关度查询和词项的概念判断，以支撑查询语义扩展和概念检索的相关需求。

语义资源模块对同义词词林资源进行包装，回应有关同义词的查询请求，查询模块和语义搜索模块都需要与语义资源模块发生交互。

查询模块是系统在语义和智能方面的重要考量，它实现查询由关键词层面提升至概念层面，实现概念扩展和非概念内容的关键词扩展，从而解决用户与检索系统之间存在的语义鸿沟问题。

语义搜索模块针对用户的查询请求，进行查询和相关文本的相关性计算并按照相关性大小对相关文本进行排序，此模块是系统的核心组成部分。

交互模块是系统与用户的沟通界面，它得到用户的查询请求将其转交给查询模块，并将语义搜索模块返回的查询结果呈现给用户。

实施例二

具体的，文本预处理模块包括分词模块、词项设定模块、索引模块，分词模块分词是自然语言处理的基础。系统对进行文本分词得到的关键词进行统计计算，得到每个词项的权重从而给文本建立索引，此外查询向量构造的第一步就是对查询语句进行分词处理。如图2所示的，分词采用统计与规则结合的方法，以层叠隐马模型为理论框架，利用5层隐马模型将分词、词性标注、切分排歧、未登录词识别统一起来。根据分词的用途要求得到一个大的模块划分，主要划分为：文本的简单处理、文本分词、去停用词、提取关键词。分词模块对外提供使用类CResult，CResult类定义了如下公有接口和数据成员。

成员函数：

bool fileProcessing(string sFileName)，文件分词接口；

bool paraProcessing(string paragraph)，句子分词接口；

bool paraProcessing(string paragra,vector<string>&key)，句子分词接口，提供关键词的结果串，解决句子的循环分词。

成员变量：

map<string,double>keyFreq，记录关键词的词频；

map<string,int>keyNum，记录关键词的词数；

vector<string>wordSegResult，分词结果串；

vector<string>keySegResult，关键词结果串；

unsigned int wordCount，得到的分词数目；

实施例三

词项设定模块是文本预处理的一部分，它针对统一的XML描述文本得到最后的文本向量表示，模块中作为输入的XML描述文本通过对网络文本使用信息抽取技术得到，模块的输出则是将存放入索引的文本向量。该模块处理基于半结构化文本的结构特点的信息抽取方案生成的XML描述文本。该模块的功能通过类ATfIdf向外提供，该类的实现使用了开源的基于DOM的XML解析库TinyXML。

实施例四

索引模块一般面临着大量的用户检索需求，一般的数据库系统不能响应工业级检索系统的大规模用户请求。为支撑系统的正常运转，需要设计一个高效的索引模块，保证查询响应速度和索引创建速度，处理海量数据并支持索引的动态更新。

索引模块的各个子模块划分包括：

ehash模块：整个索引组织结构的核心，此模块实现可扩展哈希的核心算法及其管理，主要包括哈希结构的组织，目录表的管理，哈希的动态增长，内存映象的写出和索引加载等。

bucket模块：实现哈希表的桶，负责块在磁盘的存放形式、调入内存后的组织形式、桶的分裂、桶内数据的插入删除查找等。bucket模块定义一系列的函数以完成基于桶的方便的操作。

freemap模块：管理磁盘文件的空间分配，以及文件名和文件描述符的映射。整个的磁盘文件被看成一块存储空间，freemap负责管理这块空间。可以向freemap模块“申请空间”，如果成功，返一个指向这块空间的指针，这个“指针”的形式是(fd，offset，size)，即<文件描述符，偏移量，空间大小>。类似malloc向系统申请内存空间一样。

cache模块：完成缓存管理工作。磁盘文件映射到内存是以一页一页的形式进行的，每页的大小是操作系统进行一次I/O的块大小，索引模块自己管理这些使用的缓存而不是交由操作系统管理，因为在程序范围内，它更清楚哪些页需要缓存，而操作系统的缓存管理是全局的基于整个系统的信息的形式。

vbyte模块：负责倒排链的压缩。

tmpindex模块：负责索引更新。

merge模块：用于临时索引与主索引的合并，以及创建索引时多个run的合并。

index模块：对前面各个模块的包装，它提供一个包装好的index接口，屏蔽内部实现细节。index数据结构对索引模块做了一个良好的包装，外界不必了解内部实现，只需要通过一些函数接口调用就行了。

ehash是整个模块的中心，通过可扩展哈希算法管理各个bucket，bucket的分配操作实际上是通过调用freemap模块去申请磁盘空间，这些磁盘空间到内存的映射又由cache管理，所以ehash依赖于freemap和cache模块，而freemap与cache，bucket与cache则是间接的关系。这几个模块联系紧密，共同组成了索引结构的核心。为了批量更新，索引系统维护了一个临时索引，即tmpindex模块。merge模块在一定的时机将主索引和临时索引合并起来。整个索引系统最终通过一个index子模块来包装，以提供给外界一个简单的接口。

实施例五

字体查询模块有如下针对本体的查询操作：判断一个词项是否为本体概念；对一个概念返回其候选扩展概念集，即与概念的相关度大于一定阀值的概念集合；得到一个查询候选扩展概念中的中每个概念和查询概念向量的相关性，在语义搜索模块中，需要对一个概念返回其查询相关概念集，即与概念的相关度大于一定阀值的概念的集合，本模块对外提供两个类，分别是ConceptSet和SimMatrix类。

查询模块对查询的概念部分进行概念扩展，在具体的实现中，基于概念扩展和关键词扩展的查询语义扩展方案的最终结果是经过扩展之后的查询向量，因此将查询扩展融入到查询向量的生成过程之中，查询向量在程序中表示为类QueryVector。

QueryVector类封装了查询概念扩展和查询关键词扩展，从而在外部得到一个查询语句的扩展向量的代码非常简洁，假设query是一个string类型的查询字符串，语句QueryVectorqueryVector(query)即生成了扩展后的查询向量queryVector对象，queryVector对象的conceptVector成员保存了扩展后的查询概念向量，keywordVector成员保存了扩展后的查询关键词向量。

语义搜索模块针对扩展后的查询向量，语义搜索模块首先通过索引得到相关文本和相关文本对应的文本查询相关概念集合和文本查询相关关键词集合，即生成<文本ID，概念，权重>与<文本ID，关键词，权重>形式的三元组集合；然后针对每个相关文本计算其与查询概念向量和查询关键词向量的相关性；最后对计算出的查询概念相关性和查询关键词相关性进行融合，最终得到相关文本与查询的相关性得分并按照相关性得分大小将相关文本排序。

本模块需要与查询模块交互，取得扩展后查询向量；需要与索引模块交互，取得查询文本相关概念集合和查询文本相关关键词集合，以及这两个集合中的词项在相关文本中的权重；需要与字体查询模块交互，利用字体查询模块具有的概念相关性查询功能以及对一个概念返回与其相关度大于一定阀值的概念集合的功能，以支持相关文本与查询的相关性计算。

语义资源模块利用同义词词林扩展版提供有关同义词的查询操作。在查询关键词扩展操作中，需要对非概念关键词得到其同义词集；在语义搜索模块中的文本查询概念集的生成过程中，需要将一个查询概念的同义概念的按比例把权重叠加到一起以组成合理的查询文本概念向量，因此存在对概念取得其同义词集合的需求。交互模块负责接受用户的查询语句，将其转交给查询模块以生成扩展后的查询向量，然后将扩展后的查询向量传递给语义搜索模块，最终将语义搜索模块中生成的按相关性大小从大到小排序后的相关文本呈现给用户。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

在各个实施例中，技术的硬件实现可以直接采用现有的智能设备，包括但不限于工控机、PC机、智能手机、手持单机、落地式单机等。其输入设备优选采用屏幕键盘，其数据存储和计算模块采用现有的存储器、计算器、控制器，其内部通信模块采用现有的通信端口和协议，其远程通信采用现有的gprs网络、万维互联网等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAcces Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明权利要求保护的范围之内。

Claims

1.一种中文文本语义解析与重构系统，其特征在于，包括：文本预处理模块、字体查询模块、语义资源模块、查询模块、语义搜索模块以及交互模块，所述文本预处理模块用于生成文本向量，所述字体查询模块用于处理概念相关度查询和词项的概念判断，以支撑查询语义扩展和概念检索的需求，所述语义资源模块用于对同义词词林资源进行包装，回应有关同义词的查询请求，所述查询模块和所述语义搜索模块与所述语义资源模块发生交互，所述查询模块用于实现概念扩展和非概念内容的关键词扩展，所述语义搜索模块用于针对用户的查询请求，进行查询和相关文本的相关性计算并按照相关性大小对相关文本进行排序，所述交互模块用于与用户交互。

2.根据权利要求1所述的中文文本语义解析与重构系统，其特征在于：所述文本预处理模块包括分词模块、词项设定模块、索引模块。

3.根据权利要求2所述的中文文本语义解析与重构系统，其特征在于：所述分词模块用于将文本分词得到的关键词进行统计计算，得到每个词项的权重从而给文本建立索引。

4.根据权利要求3所述的中文文本语义解析与重构系统，其特征在于：所述词项设定模块用于针对统一的XML描述文本得到最后的文本向量表示，其中，模块中作为输入的XML描述文本通过对网络文本使用信息抽取技术得到。

5.根据权利要求4所述的中文文本语义解析与重构系统，其特征在于：所述索引模块通过基于可扩展哈希的倒排索引实现，其使每个桶最多占一个存储块，从而将查询时间缩短。

6.根据权利要求5所述的中文文本语义解析与重构系统，其特征在于：所述字体查询模块用于判断一个词项是否为本体概念，对一个概念返回其候选扩展概念集，即与概念的相关度大于一定阀值的概念集合，得到一个查询候选扩展概念中的中每个概念和查询概念向量的相关性。

7.根据权利要求6所述的中文文本语义解析与重构系统，其特征在于：所述查询模块用于对查询的概念部分进行概念扩展，对非概念部分进行同义词扩展。

8.根据权利要求7所述的中文文本语义解析与重构系统，其特征在于：所述语义搜索模块用于针对扩展后的查询向量，语义搜索模块首先通过索引得到相关文本和相关文本对应的文本查询相关概念集合和文本查询相关关键词集合，然后针对每个相关文本计算其与查询概念向量和查询关键词向量的相关性，最后对计算出的查询概念相关性和查询关键词相关性进行融合，最终得到相关文本与查询的相关性得分并按照相关性得分大小将相关文本排序。

9.根据权利要求8所述的中文文本语义解析与重构系统，其特征在于：所述语义资源模块利用同义词词林扩展版提供有关同义词的查询操作，在查询关键词扩展操作中，对非概念关键词得到其同义词集，在语义搜索模块中的文本查询概念集的生成过程中，将一个查询概念的同义概念的按比例把权重叠加到一起以组成合理的查询文本概念向量。

10.根据权利要求9所述的中文文本语义解析与重构系统，其特征在于：所述交互模块用于接受用户的查询语句，将其转交给查询模块以生成扩展后的查询向量，然后将扩展后的查询向量传递给语义搜索模块，最终将语义搜索模块中生成的按相关性大小从大到小排序后的相关文本呈现给用户。