CN109241246A - 基于质量文本相似性的数据查询系统 - Google Patents

基于质量文本相似性的数据查询系统 Download PDF

Info

Publication number
CN109241246A
CN109241246A CN201811294293.3A CN201811294293A CN109241246A CN 109241246 A CN109241246 A CN 109241246A CN 201811294293 A CN201811294293 A CN 201811294293A CN 109241246 A CN109241246 A CN 109241246A
Authority
CN
China
Prior art keywords
data
word
urtext
module
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811294293.3A
Other languages
English (en)
Inventor
刘林
费廷伟
杜贝娜
牛志超
段正轩
王文超
付高生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN201811294293.3A priority Critical patent/CN109241246A/zh
Publication of CN109241246A publication Critical patent/CN109241246A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询系统。本发明利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。

Description

基于质量文本相似性的数据查询系统
技术领域
本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询系统。
背景技术
在军工集团主数据查询中,一般采用传统的like或者where等sql语句查询匹配的结果,但是当数据库中收录的数据量大且复杂,同时要求相关相识度匹配大量数据或对数据做对比、校验时,传统的sql无法解决这个问题。而利用文本相似度方法可以有效的匹配所需数据,在处理中文文本相似性的过程中,中文分词是研究的基础的。中文分词方法包括基于词典的分词法、正向最大匹配法、双向匹配分词法等。在完成分词的基础上,做文本的相似性比对,常用的相似度匹配的算法包括汉明距离、Jaccard相似性系数、贝叶斯算法和曼哈顿距离等。汉明距离是通过比较向量每一位是否相同,若不同则汉明距离加1,这样得到汉明距离向量相似性越高,对应汉明距离越小;Jaccard相似性系数,主要用于计算符号度量或者布尔值度量的个体间的相识度,只能获得是否相同这个结果;余弦相似度用向量空间中的两个向量夹角的余弦值作为衡量两个个体之间的差异的大小,它更注重两个向量方向上的差异。
面对大量数据库特征文本,大多数相似性匹配算法都能满足简单的匹配需求,但都存在无法精确、快速的完成数据库数据的匹配的问题。其中基于贝叶斯算法无法在少数文本的情况下,构建联合概率分布估计概率;而基于SimHash算法速度快,但是相识性的准确度太低。而基于余弦相识度匹配算法,用相似度值作为训练样本,在处理数据库短文中,可以快速的、准确的获取数据库相似性数据。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于质量文本相似性的数据查询系统,用于军工集团主数据查询,能够智能化、快速匹配到准确度高的数据库短文本数据、符合预期的查询、对比和校验结果。
(二)技术方案
为解决上述技术问题,本发明提供一种基于质量文本相似性的数据查询系统,其包括:
文本读入模块,其用于读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
分词处理模块,其用于对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
停用词去除模块,其用于对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
词频权重获取模块,其用于根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
权重向量空间建立模块,其用于根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
余弦值计算模块,其用于将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
相似度判断模块,其用于根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
其中,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。
其中,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,生成停用词去除后的原始文本数据。
其中,所述停用词表包括名词。
其中,所述停用词表包括代词。
其中,所述停用词表包括介词。
其中,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。
(三)有益效果
与现有技术相比较,本发明通过用jieba库动态规划查找最大概率路径的分词方法;利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。
附图说明
图1为本发明技术方案流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于质量文本相似性的数据查询系统,如图1所示,其包括:
文本读入模块,其用于读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
分词处理模块,其用于对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
停用词去除模块,其用于对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
词频权重获取模块,其用于根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
权重向量空间建立模块,其用于根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
余弦值计算模块,其用于将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
相似度判断模块,其用于根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
其中,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。
其中,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,同时对分词表作训练,提高停用词表的准确性,生成停用词去除后的原始文本数据。
其中,所述停用词表包括名词。
其中,所述停用词表包括代词。
其中,所述停用词表包括介词。
其中,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。
由于数据库文本集存在大量变动比较快的文本,为了更好的实现文本相似性的数据查询方法,在军工集团主数据查询中同时利用文本的重要程度来表征词频。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种基于质量文本相似性的数据查询系统,其特征在于,其包括:
文本读入模块,其用于读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
分词处理模块,其用于对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
停用词去除模块,其用于对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
词频权重获取模块,其用于根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
权重向量空间建立模块,其用于根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
余弦值计算模块,其用于将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
相似度判断模块,其用于根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
2.如权利要求1所述的基于质量文本相似性的数据查询系统,其特征在于,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。
3.如权利要求2所述的基于质量文本相似性的数据查询系统,其特征在于,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,生成停用词去除后的原始文本数据。
4.如权利要求3所述的基于质量文本相似性的数据查询系统,其特征在于,所述停用词表包括名词。
5.如权利要求3所述的基于质量文本相似性的数据查询系统,其特征在于,所述停用词表包括代词。
6.如权利要求3所述的基于质量文本相似性的数据查询系统,其特征在于,所述停用词表包括介词。
7.如权利要求1所述的基于质量文本相似性的数据查询系统,其特征在于,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。
CN201811294293.3A 2018-11-01 2018-11-01 基于质量文本相似性的数据查询系统 Pending CN109241246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811294293.3A CN109241246A (zh) 2018-11-01 2018-11-01 基于质量文本相似性的数据查询系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811294293.3A CN109241246A (zh) 2018-11-01 2018-11-01 基于质量文本相似性的数据查询系统

Publications (1)

Publication Number Publication Date
CN109241246A true CN109241246A (zh) 2019-01-18

Family

ID=65080252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811294293.3A Pending CN109241246A (zh) 2018-11-01 2018-11-01 基于质量文本相似性的数据查询系统

Country Status (1)

Country Link
CN (1) CN109241246A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532569A (zh) * 2019-09-05 2019-12-03 浪潮软件股份有限公司 一种基于中文分词的数据碰撞方法及系统
CN111710409A (zh) * 2020-05-29 2020-09-25 吾征智能技术(北京)有限公司 基于人体汗液异常变化的智能筛查系统
CN112632383A (zh) * 2020-12-26 2021-04-09 中国农业银行股份有限公司 一种信息推荐方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069141A (zh) * 2015-08-19 2015-11-18 北京工商大学 一种股票标准新闻库的构建方法及构建系统
CN106326868A (zh) * 2016-08-26 2017-01-11 江苏华通晟云科技有限公司 基于余弦相似度度量学习的人脸识别方法
CN107656952A (zh) * 2016-12-30 2018-02-02 青岛中科慧康科技有限公司 平行智能病例推荐模型的建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069141A (zh) * 2015-08-19 2015-11-18 北京工商大学 一种股票标准新闻库的构建方法及构建系统
CN106326868A (zh) * 2016-08-26 2017-01-11 江苏华通晟云科技有限公司 基于余弦相似度度量学习的人脸识别方法
CN107656952A (zh) * 2016-12-30 2018-02-02 青岛中科慧康科技有限公司 平行智能病例推荐模型的建模方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532569A (zh) * 2019-09-05 2019-12-03 浪潮软件股份有限公司 一种基于中文分词的数据碰撞方法及系统
CN110532569B (zh) * 2019-09-05 2023-03-28 浪潮软件股份有限公司 一种基于中文分词的数据碰撞方法及系统
CN111710409A (zh) * 2020-05-29 2020-09-25 吾征智能技术(北京)有限公司 基于人体汗液异常变化的智能筛查系统
CN112632383A (zh) * 2020-12-26 2021-04-09 中国农业银行股份有限公司 一种信息推荐方法及装置

Similar Documents

Publication Publication Date Title
CN109255021A (zh) 基于质量文本相似性的数据查询方法
US10459971B2 (en) Method and apparatus of generating image characteristic representation of query, and image search method and apparatus
CN107145560B (zh) 一种文本分类方法及装置
CN109948125B (zh) 改进的Simhash算法在文本去重中的方法及系统
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US20240169751A1 (en) Layout-aware, scalable recognition system
CN109241246A (zh) 基于质量文本相似性的数据查询系统
CN108228541A (zh) 生成文档摘要的方法和装置
CN112633011B (zh) 融合词语义与词共现信息的研究前沿识别方法及设备
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
US10970488B2 (en) Finding of asymmetric relation between words
US11562032B1 (en) Apparatus and methods for updating a user profile based on a user file
CN105760875A (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN108268461A (zh) 一种基于混合分类器的文本分类装置
Dewi et al. Feature Expansion Using Word2vec for Hate Speech Detection on Indonesian Twitter with Classification Using SVM and Random Forest
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN111523311B (zh) 一种搜索意图识别方法及装置
CN108268883A (zh) 基于开放数据的移动端信息模板自构建系统
US11797942B2 (en) Apparatus and method for applicant scoring
CN114202038B (zh) 一种基于dbm深度学习的众包缺陷分类方法
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Chen et al. Neighborhood-exact nearest neighbor search for face retrieval
Cheng et al. A Chinese Short Text Classification Method Based on TF-IDF and Gradient Boosting Decision Tree

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118