CN111339082B - 一种基于检索式的指标数据图表解读方法 - Google Patents

一种基于检索式的指标数据图表解读方法 Download PDF

Info

Publication number
CN111339082B
CN111339082B CN202010084147.9A CN202010084147A CN111339082B CN 111339082 B CN111339082 B CN 111339082B CN 202010084147 A CN202010084147 A CN 202010084147A CN 111339082 B CN111339082 B CN 111339082B
Authority
CN
China
Prior art keywords
index
information
data
chart
interpretation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010084147.9A
Other languages
English (en)
Other versions
CN111339082A (zh
Inventor
申强宾
段飞虎
陈峰涛
赵霖星
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202010084147.9A priority Critical patent/CN111339082B/zh
Publication of CN111339082A publication Critical patent/CN111339082A/zh
Application granted granted Critical
Publication of CN111339082B publication Critical patent/CN111339082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于检索式的指标数据图表解读方法,包括:制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;从指标数据库中查找指标相关数据构建指标图表模型,根据指标的相关信息构建指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。

Description

一种基于检索式的指标数据图表解读方法
技术领域
本发明涉及机器学习和计算机信息处理领域的技术领域,尤其涉及一种基于检索式的指标数据图表解读方法。
背景技术
随着数据爆炸式增长,每日产生数据不断的增多,以及数据存储的多样化和异构性,数据解读变得越来越困难,面临当今社会日益复杂的需求,如何从这些海量异构性的数据中抽取相关指标的数据,并进行有效、规范化的表示变得越来越困难。
另外,信息获取后,传统指标信息的解读是通过人力将相关信息收集到一起,制作成相关指标图表数据,并依靠人的观察和计算来解读指标,这种指标数据图表解读方法需要消耗巨大的人力、物力,且大批量的指标数据解读周期较长,成本较高。因此,对指标数据图表进行智能解读成了越来越迫切的需求。
为解决这些问题,本文研制了一套基于指标本体模型的图表解读方法。首先将各种指标数据按统一格式入库,然后根据用户需求生成指标数据图表,并对指标数据图表进行自动解读。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于检索式的指标数据图表解读方法,该方法对于待解读的指标数据图表,通过计算数据图表相关指标信息多阶指纹特征值,从预先指定的指标数据图表解读库中进行特征匹配,获取与多阶指纹特征值相匹配的指标解读记录,然后从匹配到的指标解读记录中取最优的指标解读记录,将此指标解读记录的图表解读作为最优解读。
本发明的目的通过以下的技术方案来实现:
一种基于检索式的指标数据图表解读方法,包括:
A制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;
B提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;
C从指标数据库中查找指标相关数据构建指标图表模型,根据指标的相关信息构建指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法对指标数据图表进行智能解读,来解决现有指标数据图表解读耗时费力且无法自动化的问题。
附图说明
图1是基于检索式的指标数据图表解读方法流程图;
图2是实施例提供的贝类产量走势图;
图3是实施例提供的贝类产量呈现了上升趋势图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于检索式的指标数据图表解读方法,该方法包括以下步骤:
步骤10制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;
步骤20从公开出版物中提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,并将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;
上述Simhash算法分为五个步骤:分词,hash,加权,合并,降维;具体包括:
(1)对文本进行分词并去除对全文内容没有影响的词汇,例如介词,副词等。为每个词赋予权重,权重采用词频来计算。权重越大说明该词汇在文中出现次数越多。
(2)通过hash函数计算每个词的特征值,并用二进制的0和1组成n-bit签名,使字符串变成一系列数字。
(3)在hash值的基础上,给所有特征值进行加权,即W=hash*weight,且遇到1则hash 值和权值正相乘,遇到0则hash值和权值负相乘。
(4)将上述各个特征值的加权结果累加,变成只有一个序列串。
(5)对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的Simhash值。
步骤30从指标数据库中查找指标相关数据构建指标图表模型,然后根据指标的相关信息构建指标信息结构体,再使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用计算出的多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。对匹配的多条指标解读记录取前几条再通过余弦相似度算法进行指标相似度匹配,取相似度最近的记录的解读信息为指标图表模型的解读信息。
上述余弦相似度算法主要步骤如下:
(1)列出两个指标结构体中的属性值。
(2)计算词频。
(3)写出词频向量
(4)计算两个指标结构体的向量余弦值,其公式如下::
Figure BDA0002381427020000031
上述收集指标本体数据,并将指标本体数据存储在数据库中。制定指标本体数据的格式为:指标名称、类别、地域、时间、单位、数量,并以此结构构建数据库;指标本体数据库结构如下表1;数据库指标记录如表2所示:
表1
Figure BDA0002381427020000032
表2
Figure BDA0002381427020000041
上述构建指标本体图表数据解读资源库,制定图表数据解读资源库的结构为:图表名称、指标信息、多阶指纹特征值、解读信息;如表3为图表数据解读资源库数据库结构。
表3
Figure DEST_PATH_IMAGE001
从公开出版物等资源中提取各种指标的图表数据与图表解读信息,并将相关指标信息计算多阶指纹特征值后一起将解读信息入库。
如表4为图表数据解读资源库记录,记录信息如下:
表4
Figure BDA0002381427020000043
查看某个指标的数据信息时,从指标数据库中获取指标的相关数据进行建模。比如查看全国贝类产量从2013年到2016年的走势,则根据年份信息、地域信息和指标信息获取相关数据构建折线图。效果图如图2所示:
然后,根据指标相关信息构建指标信息结构体:{"名称":"贝类产量","地域":"全国","年份": "2013-2016","单位":"吨"}。然后使用Simhash算法计算此指标信息结构体的多阶指纹特征值。根据计算出的多阶指纹特征值在指标本体图表数据解读资源库中进行记录检索;如表5为特征匹配记录:
表5
Figure BDA0002381427020000051
对匹配的记录,我们再取最优解,使用记录中的指标信息结构体和我们构建的指标信息结构体通过余弦相似度算法进行相似度匹配。取最优匹配的解读信息为我们图表的解读信息如图3所示。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (4)

1.一种基于检索式的指标数据图表解读方法,其特征在于,所述方法包括:
步骤A制定指标本体数据格式,并按指定的格式将收集的指标数据统一入库;
步骤B提取各种指标的图表数据与图表解读信息,并将指标信息中相关信息构建成指标信息结构体,用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,将图表信息、指标信息与指标信息的多阶指纹特征值和指标的相关解读存储入库形成指标本体图表数据解读资源库;
步骤C从指标数据库中查找指标相关数据构建指标图表模型,根据指标的相关信息构建指标信息结构体,使用Simhash算法对指标信息结构体进行编码,形成64位二进制的多阶指纹特征值,使用多阶指纹特征值去指标本体图表数据解读资源库中进行检索匹配。
2.如权利要求1所述的基于检索式的指标数据图表解读方法,其特征在于,所述Simhash算法包括分词,hash,加权,合并与降维;具体包括如下:
(1)对文本进行分词并去除对全文内容没有影响的词汇,并对每个词赋予权重,权重采用词频来计算;
(2)通过hash函数计算每个词的特征值,并用二进制的0和1组成n-bit签名,使字符串变成一系列数字;
(3)在hash值的基础上,给所有特征值进行加权;
(4)将各个特征值的加权结果累加,变成只有一个序列串;
(5)对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到语句的Simhash值。
3.如权利要求1所述的基于检索式的指标数据图表解读方法,其特征在于,所述步骤C还包括:对匹配的多条指标解读记录取前几条再通过余弦相似度算法进行指标相似度匹配,取相似度最近的记录的解读信息为指标图表模型的解读信息。
4.如权利要求3所述的基于检索式的指标数据图表解读方法,其特征在于,所述余弦相似度算法包括:
列出两个指标结构体中的属性值;
计算词频;
写出词频向量;
计算两个指标结构体的向量余弦值。
CN202010084147.9A 2020-02-10 2020-02-10 一种基于检索式的指标数据图表解读方法 Active CN111339082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010084147.9A CN111339082B (zh) 2020-02-10 2020-02-10 一种基于检索式的指标数据图表解读方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010084147.9A CN111339082B (zh) 2020-02-10 2020-02-10 一种基于检索式的指标数据图表解读方法

Publications (2)

Publication Number Publication Date
CN111339082A CN111339082A (zh) 2020-06-26
CN111339082B true CN111339082B (zh) 2022-08-30

Family

ID=71185201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010084147.9A Active CN111339082B (zh) 2020-02-10 2020-02-10 一种基于检索式的指标数据图表解读方法

Country Status (1)

Country Link
CN (1) CN111339082B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019708B2 (en) * 2007-12-05 2011-09-13 Yahoo! Inc. Methods and apparatus for computing graph similarity via signature similarity
CN102194164A (zh) * 2011-04-18 2011-09-21 上海实时数据软件有限公司 基于指标体系模型的敏捷商业智能数据构建方法
CN108573045B (zh) * 2018-04-18 2021-12-24 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法

Also Published As

Publication number Publication date
CN111339082A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN101404015B (zh) 自动生成词条层次
Wu et al. Semi-supervised nonlinear hashing using bootstrap sequential projection learning
CN103440313B (zh) 基于音频指纹特征的音乐检索系统
US8060505B2 (en) Methodologies and analytics tools for identifying white space opportunities in a given industry
JP5424001B2 (ja) 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム
CN109166615B (zh) 一种随机森林哈希的医学ct图像存储与检索方法
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN101404016A (zh) 确定文档特异性
CN107291895B (zh) 一种快速的层次化文档查询方法
JP5094830B2 (ja) 画像検索装置、画像検索方法及びプログラム
Liu et al. An image-based near-duplicate video retrieval and localization using improved edit distance
Poullot et al. Z-grid-based probabilistic retrieval for scaling up content-based copy detection
JP5014479B2 (ja) 画像検索装置、画像検索方法及びプログラム
CN111857660B (zh) 一种基于查询语句的情境感知api推荐方法及终端
CN116561388A (zh) 一种获取标签的数据处理系统
CN103853797B (zh) 一种基于n元图片索引结构的图片检索方法与系统
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
CN111339082B (zh) 一种基于检索式的指标数据图表解读方法
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
Truong et al. A survey on time series motif discovery
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备
Liu et al. Research on key issues of data integration technology in electric power system in big data environment
Wang et al. Unsupervised variational auto-encoder hash algorithm based on multi-channel feature fusion
CN115409130B (zh) 一种更新分类标签的优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant