CN109255021A - 基于质量文本相似性的数据查询方法 - Google Patents

基于质量文本相似性的数据查询方法 Download PDF

Info

Publication number
CN109255021A
CN109255021A CN201811294052.9A CN201811294052A CN109255021A CN 109255021 A CN109255021 A CN 109255021A CN 201811294052 A CN201811294052 A CN 201811294052A CN 109255021 A CN109255021 A CN 109255021A
Authority
CN
China
Prior art keywords
data
word
module
urtext
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811294052.9A
Other languages
English (en)
Inventor
刘林
杜贝娜
王俊
张谦
牛志超
马语菡
沈巍
高晓琼
董丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN201811294052.9A priority Critical patent/CN109255021A/zh
Publication of CN109255021A publication Critical patent/CN109255021A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询方法。本发明利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。

Description

基于质量文本相似性的数据查询方法
技术领域
本发明属于数据处理技术领域,具体涉及一种基于质量文本相似性的数据查询方法。
背景技术
在军工集团主数据查询中,一般采用传统的like或者where等sql语句查询匹配的结果,但是当数据库中收录的数据量大且复杂,同时要求相关相识度匹配大量数据或对数据做对比、校验时,传统的sql无法解决这个问题。而利用文本相似度方法可以有效的匹配所需数据,在处理中文文本相似性的过程中,中文分词是研究的基础的。中文分词方法包括基于词典的分词法、正向最大匹配法、双向匹配分词法等。在完成分词的基础上,做文本的相似性比对,常用的相似度匹配的算法包括汉明距离、Jaccard相似性系数、贝叶斯算法和曼哈顿距离等。汉明距离是通过比较向量每一位是否相同,若不同则汉明距离加1,这样得到汉明距离向量相似性越高,对应汉明距离越小;Jaccard相似性系数,主要用于计算符号度量或者布尔值度量的个体间的相识度,只能获得是否相同这个结果;余弦相似度用向量空间中的两个向量夹角的余弦值作为衡量两个个体之间的差异的大小,它更注重两个向量方向上的差异。
面对大量数据库特征文本,大多数相似性匹配算法都能满足简单的匹配需求,但都存在无法精确、快速的完成数据库数据的匹配的问题。其中基于贝叶斯算法无法在少数文本的情况下,构建联合概率分布估计概率;而基于SimHash算法速度快,但是相识性的准确度太低。而基于余弦相识度匹配算法,用相似度值作为训练样本,在处理数据库短文中,可以快速的、准确的获取数据库相似性数据。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提供一种基于质量文本相似性的数据查询方法,用于军工集团主数据查询,能够智能化、快速匹配到准确度高的数据库短文本数据、符合预期的查询、对比和校验结果。
(二)技术方案
为解决上述技术问题,本发明提供一种基于质量文本相似性的数据查询方法,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;
所述方法包括如下步骤:
步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
步骤4:词频权重获取模块根据TF-IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
步骤7:相似度判断模块根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
其中,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。
其中,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,生成停用词去除后的原始文本数据。
其中,所述停用词表包括名词。
其中,所述停用词表包括代词。
其中,所述停用词表包括介词。
其中,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。
(三)有益效果
与现有技术相比较,本发明通过用jieba库动态规划查找最大概率路径的分词方法;利用TF公式做词频权重统计;同时在相似度匹配算法中采用基于余弦相似度的方法,通过学习样本空间,得到空间转移矩阵,使得相同的样本空间更加紧密,不同的样本空间更加分散,从而快速、准确的匹配数据库的数据。与现有技术相比,本发明提出的技术方案中解决了数据库模糊查询需要依靠苛刻的查询条件(逐字匹配、无语义性)从而造成数据匹配准确度低的问题,克服了传统sql语句无法解决复杂数据匹配的问题。同时,基于余弦相似度算法特性,也保证了其计算速度快、运转效率高的特点。
附图说明
图1为本发明技术方案流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于质量文本相似性的数据查询方法,如图1所示,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;
如图1所示,所述方法包括如下步骤:
步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
步骤4:词频权重获取模块根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
步骤7:相似度判断模块根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
其中,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。
其中,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,生成停用词去除后的原始文本数据。
其中,所述停用词表包括名词。
其中,所述停用词表包括代词。
其中,所述停用词表包括介词。
其中,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。
此外,本发明还提供一种基于质量文本相似性的数据查询系统,如图1所示,其包括:
文本读入模块,其用于读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
分词处理模块,其用于对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
停用词去除模块,其用于对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
词频权重获取模块,其用于根据TF—IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
权重向量空间建立模块,其用于根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
余弦值计算模块,其用于将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
相似度判断模块,其用于根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
其中,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。
其中,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,同时对分词表作训练,提高停用词表的准确性,生成停用词去除后的原始文本数据。
其中,所述停用词表包括名词。
其中,所述停用词表包括代词。
其中,所述停用词表包括介词。
其中,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。
由于数据库文本集存在大量变动比较快的文本,为了更好的实现文本相似性的数据查询方法,在军工集团主数据查询中同时利用文本的重要程度来表征词频。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种基于质量文本相似性的数据查询方法,其特征在于,所述方法基于数据查询系统来实施,所述系统包括:文本读入模块、分词处理模块、停用词去除模块、词频权重获取模块、权重向量空间建立模块、余弦值计算模块、相似度判断模块;
所述方法包括如下步骤:
步骤1:文本读入模块读入用作查询数据的原始文本数据,对原始文本数据做预处理,预处理过程为清除和筛选异常数据,降低异常数据的干扰,得到低噪声的原始文本数据;
步骤2:分词处理模块对低噪声的原始文本数据进行分词操作,生成分词后的原始文本数据;
步骤3:停用词去除模块对分词后的原始文本数据,进行停用词去除操作,生成停用词去除后的原始文本数据;
步骤4:词频权重获取模块根据TF-IDF公式处理停用词去除后的原始文本数据,提取关键词,统计每个词的词频,赋予每个词权重;
步骤5:权重向量空间建立模块根据词频统计模块输出的每个词的权重,以原始文本数据中每个词的权重作为分量,建立N维向量表示的原始文本数据权重向量空间;同时,针对待查询的数据库数据,依次通过上述分词处理模块的分词处理环节、停用词去除模块的停用词去除环节、词频权重获取模块的权重获取环节,同样根据词的权重,将数据库数据转化为数据库数据权重向量空间;
步骤6:余弦值计算模块将前述获取的原始文本数据权重向量空间和数据库数据权重向量空间作为余弦相识度运算方法的输入,通过余弦相识度运算方法来计算两个向量空间的相似度值;
步骤7:相似度判断模块根据预设的阈值判断相似度值,通过将计算获取的相似度值与设定的阈值做比较,若相似度值大于阈值则确定从数据库数据中可以查询出原始文本数据,否则不能查询出原始文本数据。
2.如权利要求1所述的基于质量文本相似性的数据查询方法,其特征在于,所述分词处理模块利用分词算法将低噪声的原始文本数据作中文分词,列出文本中所有的词,生成分词后的原始文本数据。
3.如权利要求2所述的基于质量文本相似性的数据查询方法,其特征在于,所述分词处理模块预先设置有停用词表,停用词去除模块根据停用此表对,对分词后的原始文本数据中的所有词做筛除,生成停用词去除后的原始文本数据。
4.如权利要求3所述的基于质量文本相似性的数据查询方法,其特征在于,所述停用词表包括名词。
5.如权利要求3所述的基于质量文本相似性的数据查询方法,其特征在于,所述停用词表包括代词。
6.如权利要求3所述的基于质量文本相似性的数据查询方法,其特征在于,所述停用词表包括介词。
7.如权利要求1所述的基于质量文本相似性的数据查询方法,其特征在于,所述余弦相识度运算方法中,选取部分训练数据,对余弦相识度运算方法做训练,对算法参数调优,确定余弦相识度运算方法的运算模型。
CN201811294052.9A 2018-11-01 2018-11-01 基于质量文本相似性的数据查询方法 Pending CN109255021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811294052.9A CN109255021A (zh) 2018-11-01 2018-11-01 基于质量文本相似性的数据查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811294052.9A CN109255021A (zh) 2018-11-01 2018-11-01 基于质量文本相似性的数据查询方法

Publications (1)

Publication Number Publication Date
CN109255021A true CN109255021A (zh) 2019-01-22

Family

ID=65044604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811294052.9A Pending CN109255021A (zh) 2018-11-01 2018-11-01 基于质量文本相似性的数据查询方法

Country Status (1)

Country Link
CN (1) CN109255021A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399463A (zh) * 2019-07-29 2019-11-01 国网河北省电力有限公司 工作票的相似度匹配方法及装置
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111161890A (zh) * 2019-12-31 2020-05-15 嘉兴太美医疗科技有限公司 不良事件和合并用药的关联性判断方法及系统
CN111159977A (zh) * 2020-04-07 2020-05-15 深圳华大基因科技服务有限公司 一种人类表型标准用语确定方法及装置
CN112507107A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 术语匹配方法、装置、终端和计算机可读存储介质
CN112949304A (zh) * 2021-03-24 2021-06-11 中新国际联合研究院 一种施工案例知识重用查询方法及其装置
CN114330301A (zh) * 2021-12-29 2022-04-12 中电福富信息科技有限公司 一种基于文本相似度改进的原子能力匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069141A (zh) * 2015-08-19 2015-11-18 北京工商大学 一种股票标准新闻库的构建方法及构建系统
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN106326868A (zh) * 2016-08-26 2017-01-11 江苏华通晟云科技有限公司 基于余弦相似度度量学习的人脸识别方法
CN107193919A (zh) * 2017-05-15 2017-09-22 清华大学深圳研究生院 一种电子病历的检索方法及系统
CN107656952A (zh) * 2016-12-30 2018-02-02 青岛中科慧康科技有限公司 平行智能病例推荐模型的建模方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069141A (zh) * 2015-08-19 2015-11-18 北京工商大学 一种股票标准新闻库的构建方法及构建系统
CN106326868A (zh) * 2016-08-26 2017-01-11 江苏华通晟云科技有限公司 基于余弦相似度度量学习的人脸识别方法
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN107656952A (zh) * 2016-12-30 2018-02-02 青岛中科慧康科技有限公司 平行智能病例推荐模型的建模方法
CN107193919A (zh) * 2017-05-15 2017-09-22 清华大学深圳研究生院 一种电子病历的检索方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399463A (zh) * 2019-07-29 2019-11-01 国网河北省电力有限公司 工作票的相似度匹配方法及装置
CN112507107A (zh) * 2019-09-16 2021-03-16 深圳中兴网信科技有限公司 术语匹配方法、装置、终端和计算机可读存储介质
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111104794B (zh) * 2019-12-25 2023-07-04 同方知网数字出版技术股份有限公司 一种基于主题词的文本相似度匹配方法
CN111161890A (zh) * 2019-12-31 2020-05-15 嘉兴太美医疗科技有限公司 不良事件和合并用药的关联性判断方法及系统
CN111159977A (zh) * 2020-04-07 2020-05-15 深圳华大基因科技服务有限公司 一种人类表型标准用语确定方法及装置
CN112949304A (zh) * 2021-03-24 2021-06-11 中新国际联合研究院 一种施工案例知识重用查询方法及其装置
CN114330301A (zh) * 2021-12-29 2022-04-12 中电福富信息科技有限公司 一种基于文本相似度改进的原子能力匹配方法

Similar Documents

Publication Publication Date Title
CN109255021A (zh) 基于质量文本相似性的数据查询方法
US10459971B2 (en) Method and apparatus of generating image characteristic representation of query, and image search method and apparatus
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN109241246A (zh) 基于质量文本相似性的数据查询系统
CN107145560B (zh) 一种文本分类方法及装置
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
US20240169751A1 (en) Layout-aware, scalable recognition system
CN112633011B (zh) 融合词语义与词共现信息的研究前沿识别方法及设备
CN111324801A (zh) 基于热点词的司法领域热点事件发现方法
US10970488B2 (en) Finding of asymmetric relation between words
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Dewi et al. Feature expansion using word2vec for hate speech detection on Indonesian twitter with classification using SVM and random forest
CN105760875A (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
CN108268461A (zh) 一种基于混合分类器的文本分类装置
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN108920475A (zh) 一种短文本相似度计算方法
Cui A Chinese text classification system based on Naive Bayes algorithm
CN111581984A (zh) 一种基于任务贡献度的语句表示方法
Sang et al. WEFEST: word embedding feature extension for short text classification
Cheng et al. A Chinese Short Text Classification Method Based on TF-IDF and Gradient Boosting Decision Tree
CN114202038B (zh) 一种基于dbm深度学习的众包缺陷分类方法
CN114298020B (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Chen et al. Neighborhood-exact nearest neighbor search for face retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190122