CN109255021A

CN109255021A - 基于质量文本相似性的数据查询方法

Info

Publication number: CN109255021A
Application number: CN201811294052.9A
Authority: CN
Inventors: 刘林; 杜贝娜; 王俊; 张谦; 牛志超; 马语菡; 沈巍; 高晓琼; 董丽娜
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-01-22

Abstract

本发明属于数据处理技术领域，具体涉及一种基于质量文本相似性的数据查询方法。本发明利用TF公式做词频权重统计；同时在相似度匹配算法中采用基于余弦相似度的方法，通过学习样本空间，得到空间转移矩阵，使得相同的样本空间更加紧密，不同的样本空间更加分散，从而快速、准确的匹配数据库的数据。与现有技术相比，本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题，克服了传统sql语句无法解决复杂数据匹配的问题。同时，基于余弦相似度算法特性，也保证了其计算速度快、运转效率高的特点。

Description

基于质量文本相似性的数据查询方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于质量文本相似性的数据查询方法。

背景技术

在军工集团主数据查询中，一般采用传统的like或者where等sql语句查询匹配的结果，但是当数据库中收录的数据量大且复杂，同时要求相关相识度匹配大量数据或对数据做对比、校验时，传统的sql无法解决这个问题。而利用文本相似度方法可以有效的匹配所需数据，在处理中文文本相似性的过程中，中文分词是研究的基础的。中文分词方法包括基于词典的分词法、正向最大匹配法、双向匹配分词法等。在完成分词的基础上，做文本的相似性比对，常用的相似度匹配的算法包括汉明距离、Jaccard相似性系数、贝叶斯算法和曼哈顿距离等。汉明距离是通过比较向量每一位是否相同，若不同则汉明距离加1，这样得到汉明距离向量相似性越高，对应汉明距离越小；Jaccard相似性系数，主要用于计算符号度量或者布尔值度量的个体间的相识度，只能获得是否相同这个结果；余弦相似度用向量空间中的两个向量夹角的余弦值作为衡量两个个体之间的差异的大小，它更注重两个向量方向上的差异。

面对大量数据库特征文本，大多数相似性匹配算法都能满足简单的匹配需求，但都存在无法精确、快速的完成数据库数据的匹配的问题。其中基于贝叶斯算法无法在少数文本的情况下，构建联合概率分布估计概率；而基于SimHash算法速度快，但是相识性的准确度太低。而基于余弦相识度匹配算法，用相似度值作为训练样本，在处理数据库短文中，可以快速的、准确的获取数据库相似性数据。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种基于质量文本相似性的数据查询方法，用于军工集团主数据查询，能够智能化、快速匹配到准确度高的数据库短文本数据、符合预期的查询、对比和校验结果。

(二)技术方案

为解决上述技术问题，本发明提供一种基于质量文本相似性的数据查询方法，所述方法基于数据查询系统来实施，所述系统包括：文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块；

所述方法包括如下步骤：

步骤1：文本读入模块读入用作查询数据的原始文本数据，对原始文本数据做预处理，预处理过程为清除和筛选异常数据，降低异常数据的干扰，得到低噪声的原始文本数据；

步骤2：分词处理模块对低噪声的原始文本数据进行分词操作，生成分词后的原始文本数据；

步骤3：停用词去除模块对分词后的原始文本数据，进行停用词去除操作，生成停用词去除后的原始文本数据；

步骤4：词频权重获取模块根据TF-IDF公式处理停用词去除后的原始文本数据，提取关键词，统计每个词的词频，赋予每个词权重；

步骤5：权重向量空间建立模块根据词频统计模块输出的每个词的权重，以原始文本数据中每个词的权重作为分量，建立N维向量表示的原始文本数据权重向量空间；同时，针对待查询的数据库数据，依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节，同样根据词的权重，将数据库数据转化为数据库数据权重向量空间；

步骤6：余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入，通过余弦相识度运算方法来计算两个向量空间的相似度值；

步骤7：相似度判断模块根据预设的阈值判断相似度值，通过将计算获取的相似度值与设定的阈值做比较，若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据，否则不能查询出原始文本数据。

其中，所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词，列出文本中所有的词，生成分词后的原始文本数据。

其中，所述分词处理模块预先设置有停用词表，停用词去除模块根据停用此表对，对分词后的原始文本数据中的所有词做筛除，生成停用词去除后的原始文本数据。

其中，所述停用词表包括名词。

其中，所述停用词表包括代词。

其中，所述停用词表包括介词。

其中，所述余弦相识度运算方法中，选取部分训练数据，对余弦相识度运算方法做训练，对算法参数调优，确定余弦相识度运算方法的运算模型。

(三)有益效果

与现有技术相比较，本发明通过用jieba库动态规划查找最大概率路径的分词方法；利用TF公式做词频权重统计；同时在相似度匹配算法中采用基于余弦相似度的方法，通过学习样本空间，得到空间转移矩阵，使得相同的样本空间更加紧密，不同的样本空间更加分散，从而快速、准确的匹配数据库的数据。与现有技术相比，本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题，克服了传统sql语句无法解决复杂数据匹配的问题。同时，基于余弦相似度算法特性，也保证了其计算速度快、运转效率高的特点。

附图说明

图1为本发明技术方案流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

为解决现有技术问题，本发明提供一种基于质量文本相似性的数据查询方法，如图1所示，所述方法基于数据查询系统来实施，所述系统包括：文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块；

如图1所示，所述方法包括如下步骤：

步骤4：词频权重获取模块根据TF—IDF公式处理停用词去除后的原始文本数据，提取关键词，统计每个词的词频，赋予每个词权重；

其中，所述停用词表包括名词。

其中，所述停用词表包括代词。

其中，所述停用词表包括介词。

此外，本发明还提供一种基于质量文本相似性的数据查询系统，如图1所示，其包括：

文本读入模块，其用于读入用作查询数据的原始文本数据，对原始文本数据做预处理，预处理过程为清除和筛选异常数据，降低异常数据的干扰，得到低噪声的原始文本数据；

分词处理模块，其用于对低噪声的原始文本数据进行分词操作，生成分词后的原始文本数据；

停用词去除模块，其用于对分词后的原始文本数据，进行停用词去除操作，生成停用词去除后的原始文本数据；

词频权重获取模块，其用于根据TF—IDF公式处理停用词去除后的原始文本数据，提取关键词，统计每个词的词频，赋予每个词权重；

权重向量空间建立模块，其用于根据词频统计模块输出的每个词的权重，以原始文本数据中每个词的权重作为分量，建立N维向量表示的原始文本数据权重向量空间；同时，针对待查询的数据库数据，依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节，同样根据词的权重，将数据库数据转化为数据库数据权重向量空间；

余弦值计算模块，其用于将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入，通过余弦相识度运算方法来计算两个向量空间的相似度值；

相似度判断模块，其用于根据预设的阈值判断相似度值，通过将计算获取的相似度值与设定的阈值做比较，若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据，否则不能查询出原始文本数据。

其中，所述分词处理模块预先设置有停用词表，停用词去除模块根据停用此表对，对分词后的原始文本数据中的所有词做筛除，同时对分词表作训练，提高停用词表的准确性，生成停用词去除后的原始文本数据。

其中，所述停用词表包括名词。

其中，所述停用词表包括代词。

其中，所述停用词表包括介词。

由于数据库文本集存在大量变动比较快的文本，为了更好的实现文本相似性的数据查询方法，在军工集团主数据查询中同时利用文本的重要程度来表征词频。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于质量文本相似性的数据查询方法，其特征在于，所述方法基于数据查询系统来实施，所述系统包括：文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块；

所述方法包括如下步骤：

2.如权利要求1所述的基于质量文本相似性的数据查询方法，其特征在于，所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词，列出文本中所有的词，生成分词后的原始文本数据。

3.如权利要求2所述的基于质量文本相似性的数据查询方法，其特征在于，所述分词处理模块预先设置有停用词表，停用词去除模块根据停用此表对，对分词后的原始文本数据中的所有词做筛除，生成停用词去除后的原始文本数据。

4.如权利要求3所述的基于质量文本相似性的数据查询方法，其特征在于，所述停用词表包括名词。

5.如权利要求3所述的基于质量文本相似性的数据查询方法，其特征在于，所述停用词表包括代词。

6.如权利要求3所述的基于质量文本相似性的数据查询方法，其特征在于，所述停用词表包括介词。

7.如权利要求1所述的基于质量文本相似性的数据查询方法，其特征在于，所述余弦相识度运算方法中，选取部分训练数据，对余弦相识度运算方法做训练，对算法参数调优，确定余弦相识度运算方法的运算模型。