CN111104437A

CN111104437A - 基于对象模型的试验数据统一检索方法和系统

Info

Publication number: CN111104437A
Application number: CN201811173782.3A
Authority: CN
Inventors: 林连雷; 王建峰; 杨京礼
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2020-05-05

Abstract

本发明公开了一种基于对象模型的试验数据统一检索方法和系统，该方法采用对象模型对试验数据进行描述，通过全文搜索引擎对试验数据对象模型进行检索，获取相关试验数据，使得检索结果更完整准确、全面。所述方法包括：S1：获取待检索的试验数据；S2：根据获取的待检索的试验数据，构建描述该试验数据的对象模型，并保存对象模型文件；S3：采用深度学习网络对构建的对象模型进行分词处理；S4：根据步骤S3的分词结果，创建索引，构建索引库；当用户有查询需求时，获取查询条件，创建查询，向索引库发送查询请求进行查询，并将查询结果反馈给用户。

Description

基于对象模型的试验数据统一检索方法和系统

技术领域

本发明涉及检索技术领域，更具体的说是涉及一种基于对象模型的试验数据统一检索方法和系统。

背景技术

目前，许多试验数据管理系统采用检索方式为组合条件检索，用户在使用该检索方式时，搜索范围具有一定的针对性，导致检索不够灵活，比如：检索信息为“飞机零部件”，需要指定检索的范围，例如范围是“备注”，而且如果被检索的数据信息是“飞机XXX的零部件XXX”，该数据就无法被检索出来。即目前的试验数据管理系统检索方式单一，检索范围有限，导致最终的检索结果不理想。

因此，如何提高检索能力，获得准确的检索结果是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于对象模型的试验数据统一检索方法和系统，采用试验数据对象模型对试验数据进行描述，通过全文搜索引擎对试验数据对象模型进行检索，获取相关试验数据，使得检索结果更完整准确、全面。

为了实现上述目的，本发明采用如下技术方案：

一种基于对象模型的试验数据统一检索方法，包括：

S1：获取待检索的试验数据；

S2：根据获取的待检索的试验数据，构建描述该试验数据的对象模型，并保存对象模型文件；

其中，试验数据的对象模型只有属性特征，包含两个成员对象，一个成员对象是试验数据的基本信息，另一个成员对象是试验数据的文件信息集合；

其中，试验数据基本信息包括三个属性，分别是基本属性、关系属性和使用特征；基本属性包含试验数据名称、试验人员和试验部门；关系属性包含关联试验方案名称和ID、关联试验信息名称和ID；使用特征包含该试验数据的使用频率和最近使用时间；

试验数据文件信息集合表示与该试验数据绑定的试验数据文件可以是多个；每个试验数据文件信息包含了文件属性，语义属性和底层特征属性；文件属性包含了文件名称、文件存储路径、文件大小和文件类型；语义属性包含了语义关键词，语义描述和文件应用场景描述；底层特征属性包含了文件主题颜色、文件出题形状和其他底层特征；

S3：采用深度学习网络对构建的对象模型进行分词处理；

S4：根据步骤S3的分词结果，创建索引，构建索引库；

当用户有查询需求时，获取查询条件，创建查询，向索引库发送查询请求进行查询，并将查询结果反馈给用户；

其中，步骤S3中，对构建的文档对象进行分析以及所述创建查询时，应用了基于双向长短期记忆网络的中文分词方法，具体包括：

1)将中文语句输入，并将输入的语句转换为标准格式；

2)对语句进行命名实体识别，判断语句中的字符是否为相关单词，如果是，则将边界标签分配至字符中；如果否，则将字符标记为特殊标签“O”；

3)将字符映射为特征向量，将输入语句按顺序编号，并将文本编号作为向量索引，产生一个n维向量，当一个词出现在某段文本i中时，则向量i处的值为1，通过向量[0，0，…，1,0]来表示该词；

4)预定义若干用于描述日期、时间、数字、习语的词语或主题；

5)使用双向长短期记忆网络为每个单词分配语义标签，生成每个词的输入向量，汇总得到分词结果。

优选的，采用Word2vec工具将单个字符转换为特征向量。

一种基于对象模型的试验数据统一检索系统，包括：

获取模块，用于获取待检索的试验数据；

构建模块，用于根据获取的待检索的试验数据，构建描述该试验数据的对象模型，并保存对象模型文件；

分析模块，采用深度学习网络对构建的对象模型进行分词处理；

创建模块，用于根据分析模块的分词结果，创建索引，构建索引库；

查询模块，用于当用户有查询需求时，获取查询条件，创建查询，向索引库发送查询请求进行查询，并将查询结果反馈给用户；

其中，分析模块中，对构建的文档对象进行分析以及所述创建查询时，应用了基于双向长短期记忆网络的中文分词方法，具体包括：

1)将中文语句输入，并将输入的语句转换为标准格式；

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于对象模型的试验数据统一检索方法和系统，采用试验数据对象模型对试验数据进行描述，通过全文搜索引擎对试验数据对象模型进行检索，获取相关试验数据，而且还采用了基于深度学习的中文分词技术，使得检索结果更完整准确、全面。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的试验数据对象模型的示意图；

图2为本发明提供的基于深度学习的中文分词的流程图；

图3为本发明提供的全文检索系统的结构图；

图4为本发明提供的基于对象模型的统一检索示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于对象模型的试验数据统一检索方法，具体包括：

S1：获取待检索的试验数据；

其中，试验数据的对象模型只有属性特征，包含两个成员对象，一个成员对象是试验数据的基本信息，另一个成员对象是试验数据的文件信息集合。

其中，试验数据基本信息包括三个属性，分别是基本属性、关系属性和使用特征。基本属性包含试验数据名称、试验人员和试验部门；关系属性包含关联试验方案名称和ID、关联试验信息名称和ID；使用特征包含该试验数据的使用频率和最近使用时间；

S3：采用深度学习网络对构建的对象模型进行分词处理；

S4：根据步骤S3的分词结果，创建索引，构建索引库；

1)将中文语句输入，并将输入的语句转换为标准格式；

2)对语句进行命名实体识别，判断语句中的字符是否为相关单词，如果是，则将边界标签分配至字符中；如果否，则将字符标记为特殊标签“O”；其中，相关单词为人名、地名、机构名、专有名词等一些具有特定意义的单词；

4)预定义若干用于描述日期、时间、数字、习语的词语或主题；用于步骤5)语义识别过程中，有效提升语义识别的效率和速度；

其中，步骤2)中进行的操作是命名实体识别，用于确定语段中的实体边界，并标记人名、地名、机构名等具有特定意义的实体。步骤5)这里分配的是语义角色标签。

为了进一步优化上述技术方案，采用Word2vec工具将单个字符转换为特征向量。

此外，本发明实施例还公开了一种基于对象模型的试验数据统一检索系统，包括：

获取模块，用于获取待检索的试验数据；

1)将中文语句输入，并将输入的语句转换为标准格式；

本发明公开的基于对象模型的试验数据统一检索方法和系统，采用试验数据对象模型对试验数据进行描述，通过全文搜索引擎对试验数据对象模型进行检索，获取相关试验数据，而且还采用了基于深度学习的中文分词技术构建索引库，使得最终检索结果更完整准确、全面。

下面结合各部分概念对本发明的技术方案做进一步论述。

1、基于对象模型的试验数据表示

将对象模型的思想引入到数据管理过程中，通过构建试验数据的对象模型，对数据结构进行灵活、统一、规范的表达，构建“按需建模，即建即用”的数据管理模式。如图1所示，将一个试验数据当作一个对象提出试验数据对象模型。试验数据对象模型只有属性特征，其中包含两个成员对象，一个成员对象是试验数据的基本信息，另一个成员对象是试验数据的文件信息集合。

其中，试验数据基本信息包括三个属性，分别是基本属性、关系属性和使用特征。基本属性包含试验数据名称、试验人员和试验部门；关系属性包含关联试验方案名称和ID、关联试验信息名称和ID；使用特征包含该试验数据的使用频率和最近使用时间。

试验数据文件信息集合表示与该试验数据绑定的试验数据文件可以是多个，比如：一个试验数据可能是图片作为试验数据文件存储，但同时也具有对此图片的分析处理后的结果生成的试验数据表格进行存储，即有多个试验数据文件将绑定在一个试验数据上，从而对于试验数据文件信息采用集合的形式动态生成试验数据文件信息集合作为试验数据对象模型的另一个成员对象进行管理。其中，一个试验数据文件信息包含了文件属性，语义属性和底层特征属性。文件属性包含了文件名称、文件存储路径、文件大小和文件类型；语义属性包含了语义关键词，语义描述、文件应用场景描述；底层特征属性包含了文件主题颜色、文件出题形状和其他底层特征。

2、基于深度学习的分词技术

本发明通过对中文分词技术的研究，使得试验数据管理软件能够比较智能地识别对象模型中的词语，将有效提高数据检索的准确度以及全面性。

分词的目的是将组成文本信息的每个句子进行切分，把连续的字按照某种规范重新组合，使之成为一组词汇集合。如“舰船航行路线”采用分词技术，将词语进行拆分、重组后得到“舰船”、“航行”、“路线”。在英文的书写规范中，空格就是天然的词组分隔符，分隔各个英文单词，因此，对英文分词和词语处理都比较直接和方便。然而，在中文的书写规范中，最小单位是字，而中文的标点符号实现的是断句，而不能分词，所以，首先需要让计算机去理解如何将语句进行拆分。

现有的分词算法大致分为基于规则进行划分、基于统计进行划分和基于理解进行划分三类。

第一种分词法按照某种策略将待拆分的语句与一个词典进行条件匹配，拆分出词典中有的字符串。由于目前对词的划分还没有一个普适的标准，容易出现分词歧义的问题。

第二种分词法即是按照在上下文中相邻字符一起存在的次数越多，就越可能够成一个单词的思想进行拆分，这种分词算法由于基于统计思想，需要大量的训练语料，计算量也相对较大。

第三个分词法需要让计算机像人一样去理解语句，从而识别词语，是一种“先理解后分词”的分词方法。

近年来，深度学习(Deep Learning)的热度不断上升，深度学习来源于传统的神经网络模型。传统的神经网络一般由输入层，隐藏层，输出层组成，其中隐藏层的数目按需确定。深度学习可以简单地理解为多层神经网络，但是深度学习的却不仅仅是神经网络。深度模型将每一层的输出作为下一层的输入特征，通过将底层的简单特征组合成为高层的更抽象的特征来进行学习。深度学习的优势就在于，从训练数据中学习到上下文信息特征，人工做的部分是设计神经网络的结构，提供优质的训练数据。从一定程度上讲，该方法是先理解了上下文，再进行分词。

本发明采用基于神经网络的序列标记方法，采用文本规范化、命名实体识别(NER)，中文单词分段和词性标注(POS)三步步骤，从而对语句进行分词操作。由于中文文本没有使用空格分隔单词、存在一词多义以及缺乏形态标记等特点，因此，在对语句的理解上需要以字符而非单词进行结构构建。

参见附图2，附图2示出了基于深度学习的中文分词的流程图，具体步骤如下：

1)将所要理解的中文语句进行输入，并将所输入语句转换为标准格式，例如将全角符号转换为半角字符，将繁体中文字符转换为简体字符，并替换诸如方言、俚语等非正式表达。

2)使用基于深度神经网络的序列标记模块对句子进行命名实体识别，可以视为将边界标签分配至所输入文本的字符单元中，并对相关单词进行标注。相关单词包括人名、地名、机构名、专有名词等一些具有特定意义的单词等。对不感兴趣或文中无关单词通常标有特殊标签“O”。

3)将字符映射为特征向量，以词向量形式来表示单个词。通过使用谷歌公司开发的Word2vec工具可以方便快速地将单个词转换为向量形式表示。对于输入文本集合，将文本按顺序编号(i＝0…n-1)，再将文本编导作为向量索引，产生一个n维向量。当一个词出现在某段文本i中时，向量i处值为1，通过一个类似[0，0，…，1，0]形式的向量表示该词。

4)为提升语义理解效率及速度，会事先预定义若干用于描述日期、时间、数字、习语的词语或主题。

5)对于每个单词将使用双向长短期记忆网络(bi-LSTM)分配适当的语义标签。长短期记忆网络(LSTM)是一种广泛使用的递归神经网络变体，bi-LSTM由两个单向循环神经网络组成。在每一个时刻，输入会同时提供给这两个方向相反的循环神经网络，而输出则是由这两个单向循环神经网络共同决定，可以用于处理和预测时间序列中间隔和延迟相对较长的重要事件。bi-LSTM在展开网络中对前向与后向过程的处理与常规网络的处理方式类似，网络输入是对字嵌入以及NER类别和相关POS标签的特征向量的级联，将分别执行分词、NER过程和POS标记，并且所生成结果将用于为输入文本的每个词生成输入向量。

3、全文检索技术研究

通过对全文检索技术的研究，用户只用在一个输入框中输入检索条件，不用设定检索范围，通过全文检索引擎对试验数据对象模型进行检索，获取相关试验数据，使得检索结果更完整全面。

全文检索技术由两部分组成：构建索引信息和检索条件处理。其中，构建索引信息是将待检索的文档进行预处理，生成索引库，以供检索系统查询。检索条件处理是指将用户的输入的检索条件进行处理之后前往索引库中进行匹配，获取相关信息的过程。一般来说，全文检索技术的核心技术就是全文检索引擎部分，如图3所示。计算机利用全文检索技术对需要检索的文档进行扫描，通过文本分析机制将文档中的词汇提取出来，而后为每个词语创建一个索引，标注该词语出现的次数和位置。当用户输入检索条件信息时，全文检索引擎将通过文本分析机制提取出检索关键词，而后前往索引库进行匹配，将匹配成功的数据以集合的形式返回给用户。在我国，文本分析机制一般都是建立于中文分词基础之上的，因此，本发明采用的全文检索方法主要按中文词语进行检索。

本发明流程如图4所示，将待检索的文件在索引库汇总创建索引。当用户有查询需求时，通过获取查询条件，使用该工具在索引库中进行查询，并返回查询结果给用户。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本发明所示的这些实施例，而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于对象模型的试验数据统一检索方法，其特征在于，包括：

S1：获取待检索的试验数据；

S3：采用深度学习网络对构建的对象模型进行分词处理；

S4：根据步骤S3的分词结果，创建索引，构建索引库；

1)将中文语句输入，并将输入的语句转换为标准格式；

2.根据权利要求1所述的基于对象模型的试验数据统一检索方法，其特征在于，采用Word2vec工具将单个字符转换为特征向量。

3.一种基于对象模型的试验数据统一检索系统，其特征在于，包括：

获取模块，用于获取待检索的试验数据；

1)将中文语句输入，并将输入的语句转换为标准格式；