CN115545783A - 一种工程造价信息查询方法、系统及存储介质 - Google Patents

一种工程造价信息查询方法、系统及存储介质 Download PDF

Info

Publication number
CN115545783A
CN115545783A CN202211249832.8A CN202211249832A CN115545783A CN 115545783 A CN115545783 A CN 115545783A CN 202211249832 A CN202211249832 A CN 202211249832A CN 115545783 A CN115545783 A CN 115545783A
Authority
CN
China
Prior art keywords
project
keyword
word
project cost
cost information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211249832.8A
Other languages
English (en)
Other versions
CN115545783B (zh
Inventor
赖铭华
谢望平
吴文斌
庄承荣
江结真
黄亿平
王静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yongdao Technology Co ltd
Yongdao Engineering Consulting Co ltd
Original Assignee
Yongdao Technology Co ltd
Yongdao Engineering Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yongdao Technology Co ltd, Yongdao Engineering Consulting Co ltd filed Critical Yongdao Technology Co ltd
Priority to CN202211249832.8A priority Critical patent/CN115545783B/zh
Publication of CN115545783A publication Critical patent/CN115545783A/zh
Application granted granted Critical
Publication of CN115545783B publication Critical patent/CN115545783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种工程造价信息查询方法、系统及存储介质,本发明在进行工程造价查询时,先对用户输入的工程造价查询语句进行分词,得到工程造价查询关键词,接着,本发明通过计算工程造价关键词中的每个关键词,与每条工程造价信息中每个项目标签的相似度,来得出每个关键词与每条工程造价信息的各个项目标签的关联值;最后,基于前述关联值,即可计算得到工程造价查询关键词与每条工程造价信息的匹配度,其中,匹配度越大,说明二者相似度越高,由此,即可将匹配度最高的前k位的工程造价信息对应的项目造价数据集,作为查询结果;通过上述设计,本发明避免了人工筛选结果的问题,不仅提高了查询效率,还降低了人力物力成本。

Description

一种工程造价信息查询方法、系统及存储介质
技术领域
本发明属于信息查询技术领域,具体涉及一种工程造价信息查询方法、系统及存储介质。
背景技术
工程造价是指构成项目在建设期预计或实际支出的建设费用,其综合运用管理学、经济学和工程技术等方面的知识与技能,对工程造价进行预测、计划、控制、核算、分析和评价,其中,按照法律法规和标准等规定的程序、方法和依据,对工程造价及其构成内容进行的预测或确定被称为工程计价,工程计价包括与计价内容、计价方法和价格标准相关的工程计量计价标准,工程计价定额及工程造价信息等。
目前,项目在实际施工前,会参考与待施工项目相类似的历史项目的工程造价信息,来进行待施工项目造价的初步评估,以便在项目决策阶段,作为项目财务分析和经济评价的依据,同时,也可帮助企业制定相应的投资计划;在现有技术中,对于工程造价信息的查询,一般是员工输入关键词,得出关键词匹配的数据,然后手动查看数据,以进行结果的筛选,最终得到想要的查询结果;但是,由于工程造价行业的特殊性,工程造价数据中通常包含大量的细节数据,且不同工程造价项目,涵盖的工程造价数据内容也不尽相同,从而导致工程造价信息数据量非常庞大;由此,前述人工查询方法不仅查询效率慢,还浪费了大量的人力物力;因此,提供一种查找效率高,且无需人工筛选操作的工程造价信息查询方法迫在眉睫。
发明内容
本发明的目的是提供一种工程造价信息查询方法、系统及存储介质,用以解决现有技术中采用人工查询所存在的效率慢以及浪费了大量人力物力的问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供了一种工程造价信息查询方法,包括:
获取工程造价查询语句以及工程造价数据库,其中,所述工程造价数据库中存储有海量工程造价信息,每条工程造价信息包括项目造价数据集以及若干项目标签,且任一项目标签用于表征对应项目的工程概况中的一种工程信息;
基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词;
对于工程造价查询关键词中的任一关键词,计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,并将最大相似度作为所述任一关键词与第i条工程造价信息之间的关联值,以便在计算出工程造价查询关键词中所有关键词与第i条工程造价信息中每个项目标签的相似度后,得到每个关键词与第i条工程造价信息之间的关联值,其中,i为正整数;
基于所述工程造价查询关键词中每个关键词与第i条工程造价信息之间的关联值,计算得到所述工程造价查询关键词与所述第i条工程造价信息之间的匹配度;
当i从1轮询至n时,得到所述工程造价查询关键词与每条工程造价信息之间的匹配度,其中,n为正整数,且为所述工程造价数据库中存储的工程造价信息的总数目;
按照匹配度从高到低的顺序排序所述工程造价数据库中的工程造价信息,并取排序前k位的工程造价信息对应的项目造价数据集,作为所述工程造价查询语句的查询结果,以便将所述查询结果按照匹配度排序顺序进行可视化展示,其中,k为正整数。
基于上述公开的内容,本发明预先构建有工程造价数据库,该数据库中存储有海量的工程造价信息,且每条工程造价信息均包括对应项目的造价数据集以及若干项目标签,因此,该数据库可为工程造价查询提供数据支撑;其次,本发明在进行工程造价查询时,先对用户输入的工程造价查询语句进行分词,得到工程造价查询关键词,接着,本发明通过计算工程造价关键词中的每个关键词,与每条工程造价信息中每个项目标签的相似度,来得出每个关键词与每条工程造价信息的各个项目标签的关联值;最后,基于前述关联值,即可计算得到工程造价查询关键词与每条工程造价信息的匹配度,其中,匹配度越大,说明二者相似度越高,由此,即可将匹配度最高的前k位的工程造价信息对应的项目造价数据集,作为查询结果;通过上述设计,本发明在进行工程造价信息查询时,无需人工手动查看数据,避免了人工筛选结果的问题,不仅提高了查询效率,还降低了人力物力成本。
在一个可能的设计中,所述分词词典包括:关键字查询表以及若干词语长度表,其中,所述关键字查询表包括若干关联有位置哈希值的汉字,每个汉字关联有一为空或为非空的词语长度表,每个非空的词语长度表按照词语长度依次划分有多个词语队列,且任一词语队列中的各个词语长度相同;
相应的,基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词,包括:
基于所述工程造价查询语句中的标点符号,对所述工程造价查询语句进行语句分割,得到多个分割字段;
B.对于所述多个分割字段中的第x个分割字段,获取所述第x个分割字段中的第j个字的ASCII码,其中,j从1开始,且j为正整数;
C.基于所述第j个字的ASCII码,计算得到所述第j个字的查询哈希值;
D.根据所述查询哈希值,在所述关键字查询表中匹配出与所述查询哈希值对应的位置哈希值,以将匹配出的位置哈希值对应汉字的词语长度表,作为分词表;
E.判断所述分词表是否为空;
F.若否,则将所述分词表中的最大词语长度作为分词长度,并以所述第j个字为首字,按照所述分词长度从所述第x个分割字段中截取出分割字符串;
G.在所述分词表中的第L长度对应的词语队列中,利用二分查找算法查询所述分割字符串是否存在于第L长度对应的词语队列中,其中,L为分词表中的最大词语长度;
H.若分割字符串存在于第L长度对应的词语队列中,则将分割字符串作为切分的词语;
I.将j更新为j+h,并判断更新后的j是否大于所述第x个分割字段的最大长度,其中,h为所述分词长度;
J.若否,则并重新执行步骤B-H,直至j大于所述最大长度时为止,以在j大于所述最大长度时,完成所述第x个分割字段的切分;
当x从1轮询至y时,完成所述工程造价查询语句的分词处理,得到所述多个词语,其中,y为分割字段的总个数。
基于上述公开的内容,本发明所提供的分词词典包括关键字查询表以及若干词语长度表,其中,关键字查询表包括若干关联有位置哈希值的汉字,且每个汉字关联有按照词语长度划分的词语长度表,即一个词语长度表中按照词语长度划分有多个词语队列;因此,在进行分词时,通过哈希值来匹配关键字查询表中的汉字,即可实现不同词语长度的分词;其原理是,若一个词条存在于词语长度表内的一词语队列中,即可将该词条作为关键词进行切分,由此,本发明则利用前述原理进行词语切分。
在具体应用时,先按照标点符号对工程造价查询语句进行语句分割,得到多个分割字段,然后,对于任一分割字段,从第一个字开始,基于其对应的ASCII码,来计算对应的查询哈希值,以便基于查询哈希值来匹配关键字查询表中的汉字;接着,即可判断匹配出的汉字的词语长度表是否为空,若为空,则说明该字为单字词,可直接进行切分;否则,则以该词语长度表的最大词语长度作为分词长度,以便按照该分词长度,从任一分割字段中切割出字符串,并查询该字符串是否存在于前述分词长度对应的词语队列,若存在,则可将字符串进行切分,作为切分的词语;此时,即可完成任一分割字段一个词语的划分,最后,将j更新为j+h,并判断更新后的j是否大于任一分割字段的最大长度,若否,则重复前述步骤,直至j大于所述最大长度为止,当j大于所述最大长度时,即可完成任一分割字段的切分。
在一个可能的设计中,,若所述分割字符串不存在于第L长度对应的词语队列中,则所述方法还包括:
将分词长度自减1,并以所述第j个字为首字,重新按照所述分词长度从所述第x个分割字段中截取出分割字符串;
将L自减1,并重新执行步骤G-J,直至j大于所述最大长度时为止。
在一个可能的设计中,若所述分词表为空,则所述方法包括:
将所述第j个字作为切分的词语;
将j自加1,并重新执行步骤B-J,直至j大于所述最大长度时为止。
在一个可能的设计中,计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,包括:
以所述任一关键词中的第m个字为判断关键字,构建所述判断关键字与第i条工程造价信息中第r个项目标签的文字匹配集合,其中,文字匹配集合为:
T(V,m,r)={b|rb=Vm,b=1,2,...,R} (1)
上述式(1)中,T(V,m,r)为所述文字匹配集合,V表示任一关键词,Vm表示判断关键字,b表示第r个项目标签中与判断关键字相同的字,rb表示第r个项目标签中与判断关键字相同的字所处的位置,R为第r个项目标签的文字长度;
基于所述文字匹配集合,计算得到所述判断关键字与第r个项目标签的相似度误差值;
根据所述相似度误差值,计算得到所述判断关键字与第r个项目标签的相似度;
当m从1轮询至M时,得到任一关键词中每个文字与第r个项目标签的相似度,其中,M为所述任一关键词中文字的总个数;
基于任一关键词中每个文字与第r个项目标签的相似度,得到所述任一关键词与所述第r个项目标签的相似度;
当r从1轮询至t时,得到任一关键词,与第i条工程造价信息中每个项目标签的相似度,其中,t为所述第i条工程造价信息中项目标签的总数目。
在一个可能的设计中,基于所述文字匹配集合,计算得到所述判断关键字与第r个项目标签的相似度误差值,包括:
按照如下公式(2),计算得到所述相似度误差值S(V,m,r):
Figure BDA0003887613010000051
相应的,按照如下公式(3),计算得到所述判断关键字与第r个项目标签的相似度:
Figure BDA0003887613010000052
上述式(3)中,SI(V,m,r)表示所述判断关键字与第r个项目标签的相似度。
在一个可能的设计中,基于任一关键词中每个文字与第r个项目标签的相似度,得到所述任一关键词与所述第r个项目标签的相似度,包括:
按照如下公式(4),计算得到所述任一关键词与所述第r个项目标签的相似度:
Figure BDA0003887613010000061
上述式(4)中,SI(V,r)表示任一关键词与所述第r个项目标签的相似度,M为所述任一关键词中文字的总个数。
第二方面,本发明提供了一种工程造价信息查询系统,包括:
获取模块,用于获取工程造价查询语句以及工程造价数据库,其中,所述工程造价数据库中存储有海量工程造价信息,每条工程造价信息包括项目造价数据集以及若干项目标签,且任一项目标签用于表征对应项目的工程概况中的一种工程信息;
分词模块,用于基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词;
相似度计算模块,对于工程造价查询关键词中的任一关键词,用于计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,并将最大相似度作为所述任一关键词与第i条工程造价信息之间的关联值,以便在计算出工程造价查询关键词中所有关键词与第i条工程造价信息中每个项目标签的相似度后,得到每个关键词与第i条工程造价信息之间的关联值,其中,i为正整数;
相似度计算模块,用于基于所述工程造价查询关键词中每个关键词与第i条工程造价信息之间的关联值,计算得到所述工程造价查询关键词与所述第i条工程造价信息之间的匹配度;
相似度计算模块,用于当i从1轮询至n时,计算得到所述工程造价查询关键词与每条工程造价信息之间的匹配度,其中,n为正整数,且为所述工程造价数据库中存储的工程造价信息的总数目;
造价查询模块,用于按照匹配度从高到低的顺序排序所述工程造价数据库中的工程造价信息,并取排序前k位的工程造价信息对应的项目造价数据集,作为所述工程造价查询语句的查询结果,以便将所述查询结果按照匹配度排序顺序进行可视化展示,其中,k为正整数。
第三方面,本发明提供了另一种工程造价信息查询系统,以系统为电子设备为例,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意一种可能设计的所述工程造价信息查询方法。
第四方面,本发明提供了一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意一种可能设计的所述工程造价信息查询方法。
第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面中任意一种可能设计的所述工程造价信息查询方法。
有益效果:
(1)本发明在进行工程造价查询时,先对用户输入的工程造价查询语句进行分词,得到工程造价查询关键词,接着,本发明通过计算工程造价关键词中的每个关键词,与每条工程造价信息中每个项目标签的相似度,来得出每个关键词与每条工程造价信息的各个项目标签的关联值;最后,基于前述关联值,即可计算得到工程造价查询关键词与每条工程造价信息的匹配度,其中,匹配度越大,说明二者相似度越高,由此,即可将匹配度最高的前k位的工程造价信息对应的项目造价数据集,作为查询结果;通过上述设计,本发明在进行工程造价信息查询时,无需人工手动查看数据,避免了人工筛选结果的问题,不仅提高了查询效率,还降低了人力物力成本。
附图说明
图1为本发明提供的工程造价信息查询方法的步骤流程示意图;
图2为本发明提供的工程造价信息查询系统的结构示意图;
图3为本发明提供的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
实施例:
参见图1所示,本实施例第一方面所提供的工程造价信息查询方法,可实现工程造价信息的快速查询,并可按照匹配度从高到低的顺序,将与查询需求匹配度最高的信息进行可视化展示,因此,本发明不仅效率高,还减少了查询所花费的人力和物力;可选的,本实施例所提供的方法可以但不限于在查询终端侧运行,其中,查询终端可以但不限于是个人电脑(personal computer,PC)、平板电脑、智能手机和/或个人数字助理(personaldigital assistant,PDA)等;可以理解的,前述执行主体并不构成对本申请实施例的限定,相应的,本方法的运行步骤可以但不限于如下述步骤S1~S6所示。
S1.获取工程造价查询语句以及工程造价数据库,其中,所述工程造价数据库中存储有海量工程造价信息,每条工程造价信息包括项目造价数据集以及若干项目标签,且任一项目标签用于表征对应项目的工程概况中的一种工程信息;具体应用时,工程造价数据库为预先构建,可爬取目前互联网上公开的所有工程造价数据,并进行数据整理,从而得到每个项目的项目标签,以及每个项目的项目造价数据集;可选的,项目标签用于表征项目的工程概况,而工程概况则可以但不限于包括:工程名称、规模、性质、用途、资金来源、投资额、开竣工日期、建设单位、设计单位、监理单位、施工单位、工程地点、工程总造价、施工条件、建筑面积、结构形式、图纸设计完成情况和承包合同等,相应的,任一工程造价信息中的项目造价数据集则可以但不限于包括:该任一工程造价信息对应项目中:各个单项工程的造价数据表以及项目的总造价数据表,其中,若一个项目为学校建设,那么各个单项工程可分为教学楼、实验楼、体育楼等;且各个单项工程的造价数据表可以但不限于包括:标题(H栋教学楼建设项目)、数据属性(计量时间、地区、年、季、月、省、市、区等)、建筑面积、材料清单、定额、消耗量和工料机数据等。
在获取到用户输入的工程造价查询语句后,即可对其进行分词处理,以便得到工程造价查询关键词,从而基于得到的关键词,进行工程造价信息的查询,其中,分词处理如下述步骤S2所示。
S2.基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词;具体应用时,本实施例在现有的汉字编码表的基础上,重新进行了词典的构建,即按照现有汉字编码表上的汉字位置,来为每个汉字设置一关键字查询表,以及以每个汉字为首字,并按照词语长度,为每个汉字设置一词语长度表,即该分词词典则包括关键字查询表以及若干词语长度表,其中,所述关键字查询表包括若干关联有位置哈希值的汉字,每个汉字关联有一为空或为非空的词语长度表,每个非空的词语长度表按照词语长度依次划分有多个词语队列,且任一词语队列中的各个词语长度相同;假设一个汉字为电,那么其词语长度表可按照词语长度划分为多个词语队列,如词语长度为2的词语队列可以包括电控、电机、电路;词语长度为3的词语队列可以包括电动车、电瓶车、电视机等等,在本实施例中,其余词语长度的词语队列划分规则与前述举例一致,于此不再一一赘述。
在本实施例中,下述公开分词词典的具体构建方法,如下述步骤S01~S06所示。
S01.获取汉字编码词典,并读取汉字编码词典中的第p行,得到文字字段;在本实施例中,汉字编码词典是按词的内码顺序排列的,每行为一个字或一个词,因此,即可先读取汉字编码词典中的每一行,然后再进行分词词典的构建。
S02.计算所述文字字段中首字的哈希值,并将该哈希值作为首字的位置哈希值;在具体应用时,按照如下公式计算首字的哈希值。
ha=(h1-0xB0)*94+(h2-0xA0),式中,ha为哈希值,h1为首字在汉字编码表中ASCII码的高字节,h2为首字在汉字编码表中ASCII码的低字节,0xB0和0xA0均代表十六进制数。
S03.为文字字段构建一词语长度表,其中,词语长度表包括多个按照词语长度划分的词语队列,且各个词语队列为空。
S04.判断所述文字字段的文字长度是否大于1。
S05.若是,则基于文字长度,将文字字段划分到词语长度表中,且与文字长度对应的词语长度的词语队列内;若否,则将文字字段作为单字词,并将该文字字段对应的词语长度表设置为空表。
S06.将p自加1,重新读取第p行,得到新文字字段,并判断新文字字段中的首字与第p-1行的文字字段的首字是否相同。
S07.若否,则重复步骤S01~S06,直至p的值大于P时为止,其中,当p的值大于P时,得到分词词典,且P为汉字编码词典中的总行数;若是,则将新文字字段划分至目标词语长度表中,且与文字长度对应的词语长度的词语队列内,并重新执行步骤S206,其中,目标词语长度表为p-1行的文字字段的首字对应的词语长度表。
在构建得到分词词典后,即可基于分词词典对用户输入的工程造价查询语句进行分词处理,其中,分词处理的具体过程如下述步骤A~K所示。
A.基于所述工程造价查询语句中的标点符号,对所述工程造价查询语句进行语句分割,得到多个分割字段;具体应用时,标点符号可以但不限于包括逗号、顿号、句号等,因此,即可按照前述标点符号,将前述工程造价查询语句划分为多个分割字段。
在对工程造价查询语句进行语句分割后,即可对分割得到的多个分割字段进行分词处理,其中,处理过程如下述步骤所示。
B.对于所述多个分割字段中的第x个分割字段,获取所述第x个分割字段中的第j个字的ASCII码,其中,j从1开始,且j为正整数;具体应用时,第j个字的ASCII码可通过查询汉字编码表得到。
C.基于所述第j个字的ASCII码,计算得到所述第j个字的查询哈希值;在本实施例中,可采用前述步骤S02中的位置哈希值的计算公式,来计算第j个字的查询哈希值,具体过程不再赘述。
在得到第j个字的查询哈希值后,即可利用查询哈希值,在关键字查询表中,匹配出与查询哈希值相等的位置哈希值,从而将匹配出的位置哈希值对应的汉字,作为与第j个字相同的文字,以便后续基于该匹配出的汉字对应的词语长度表,来进行分词处理,其中,具体过程可参见下述步骤D~K所示。
D.根据所述查询哈希值,在所述关键字查询表中匹配出与所述查询哈希值对应的位置哈希值,以将匹配出的位置哈希值对应汉字的词语长度表,作为分词表;具体应用时,如第j个字的查询哈希值与关键字查询表中的“西”字相同,那么则将“西”字对应的词语长度表,作为第j个字的分词表。
在得出第j个字的分词表后,即可利用分词表来对第x个分割字段进行分词,如下述步骤E~K所示。
E.判断所述分词表是否为空。
F.若否,则将所述分词表中的最大词语长度作为分词长度,并以所述第j个字为首字,按照所述分词长度从所述第x个分割字段中截取出分割字符串。
G.在所述分词表中的第L长度对应的词语队列中,利用二分查找算法查询所述分割字符串是否存在于第L长度对应的词语队列中,其中,L为分词表中的最大词语长度。
H.若分割字符串存在于第L长度对应的词语队列中,则将分割字符串作为切分的词语。
I.将j更新为j+h,并判断更新后的j是否大于所述第x个分割字段的最大长度,其中,h为所述分词长度。
J.若否,则并重新执行步骤B-H,直至j大于所述最大长度时为止,以在j大于所述最大长度时,完成所述第x个分割字段的切分。
K.当x从1轮询至y时,完成所述工程造价查询语句的分词处理,得到所述多个词语,其中,y为分割字段的总个数。
具体应用时,若分词表为非空,那么则说明第j个字不是单字词,其对应有多个不同长度的词语,因此,则需要以分词表中的最大词语长度为分词长度,来从第x个分割字段中进行文字的截取;下述以一个实例来阐述:假设第x个分割字段为“西南地区教学楼项目”,且分词表中的最大词语长度为4,那么则以4为分词长度,并以第j个字为首字,从“西南地区教学楼项目”中截取出前4个字,来组成分割字符串,即分割字符串为“西南地区”,此时,则利用二分查找算法,在分词表中长度为4的词语队列中,进行“西南地区”的查询,若“西南地区”存在于长度为4的词语队列中,那么,则可将“西南地区”作为切分的词语,即“西南地区教学楼项目”中切分的第一个词语则是“西南地区”。
在完成第一轮的切分后,则将j变为j+h,也就是j=1+4=5,此时,判断j是否大于第x个分割字段的最大长度(最大长度为9),在前述举例的基础上,j小于最大长度,因此,则需要计算第5个字的查询哈希值(即“教”字的查询哈希值),然后使用前述相同的流程,来确定出以“教”字为首字的分割字符串,以及完成以“教”子为首字的词语的切分;以同样的方法不断重复前述步骤,直至j的值大于x个分割字段的最大长度为止,且在j大于最大长度时,即可完成前述“西南地区教学楼项目”这一分割字段的词语切分。
同理,对于下一个分割字段,也采用前述相同方法进行词语切分,其过程可参见前述举例,于此不再赘述。
可选的,若所述分词表为空,则说明第j个为单字词,因此,可直接将所述第j个字作为切分的词语,从而完成第x个分割字段的第一轮的切分;同理,将j自加1,并重新执行步骤B-J,以进行第x个分割字段中其余词语的切分,当然,其截止条件也是j大于所述最大长度时为止。
另外,若所述分割字符串不存在于第L长度对应的词语队列中,则按照如下步骤进行词语的切分:
第一步:将分词长度自减1,并以所述第j个字为首字,重新按照所述分词长度从所述第x个分割字段中截取出分割字符串。
第二步:将L自减1,并重新执行步骤G-J,直至j大于所述最大长度时为止。
下述还是在前述举例的基础上进行阐述:
若前述分割字符串“西南地区”,不存在于长度为4的词语队列中,那么,在将分词长度自减1,也就是变为3,然后,重新从“西南地区教学楼项目”中进行词语分割,也就是分割出“西南地”这一分割字符串,接着,查找“西南地”这一分割字符串是否存在于分词表中长度为3的词语队列中;若存在,则将“西南地”作为切分的词语;若不存在,则继续将分词长度自减1,也就是变为2,此时,从“西南地区教学楼项目”中切分的分割字符串则变为:“西南”,同理,继续查找“西南”这一分割字符串是否存在于分词表中长度为2的词语队列中,若存在,则将“西南”作为切分的词语,若不存在,则继续将分词长度减1,并重复前述流程,直至分词长度小于1为止。
由此通过前述步骤A-K,即可实现每个分割字段的分词,得到多个切分的词语,而多个切分的词语,则作为工程造价查询关键词。
在得到工程造价查询关键词后,即可利用工程造价关键词进行工程造价信息的查询;在本实施例中,对于任一条工程造价信息,是计算每个关键词与该任一条工程造价信息中每个项目标签的相似度,从而来得出工程造价关键词与该任一条工程造价信息的匹配度,并以此原理,来计算出其与每条工程造价信息的匹配度,最后,即可基于匹配度来得出与工程造价查询语句最匹配的工程造价信息,其中,查询过程如下述步骤S3~S5所示。
S3.对于工程造价查询关键词中的任一关键词,计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,并将最大相似度作为所述任一关键词与第i条工程造价信息之间的关联值,以便在计算出工程造价查询关键词中所有关键词与第i条工程造价信息中每个项目标签的相似度后,得到每个关键词与第i条工程造价信息之间的关联值,其中,i为正整数;具体应用时,可以但不限于采用如下步骤S31~S36来计算任一关键词,与第i条工程造价信息中每个项目标签之间的相似度。
S31.以所述任一关键词中的第m个字为判断关键字,构建所述判断关键字与第i条工程造价信息中第r个项目标签的文字匹配集合,其中,文字匹配集合为:
T(V,m,r)={b|rb=Vm,b=1,2,...,R} (1)
上述式(1)中,T(V,m,r)为所述文字匹配集合,V表示任一关键词,Vm表示判断关键字,b表示第r个项目标签中与判断关键字相同的字,rb表示第r个项目标签中与判断关键字相同的字所处的位置,R为第r个项目标签的文字长度。
在具体应用时,步骤S31则是查找出第r个项目标签中,是否存在有与任一关键词中的第m个字相同的文字,若存在,则记录第r个项目标签中与第m个字相同的文字的位置;如任一关键词为“西南地区”,第r个项目标签为“四川西部成都西门教学楼项目”,那么对于任一关键词的第一个字,第r个项目标签中的第3个和第7个文字与任一关键词的第一个字相同,那么,判断关键字与第r个项目标签的文字匹配集合为:
T(V,1,r)={brb=Vm,b=3,7}
在得到第m个字与第r个项目标签的文字匹配集合后,即可利用该文字匹配集合,来计算第m个字与第r个项目标签的相似度误差值,如下述步骤S32所示。
S32.基于所述文字匹配集合,计算得到所述判断关键字与第r个项目标签的相似度误差值;具体应用时,按照如下公式(2),计算得到所述相似度误差值S(V,m,r):
Figure BDA0003887613010000141
还是在前述举例基础上进行阐述,由于第r个项目标签中存在有与任一关键词中第一个字相同的文字,因此,文字匹配集合不为空,由此,根据公式(2)可知,任一关键词中的第1个字与第r个项目标签的相似度误差值为:
S(V,1,r)=min{b-1,b∈T(V,m,r)}=min{b-1,b=3,7}
即S(V,1,r)=min{3-1,7-1}=min{2,6}=2
在得到任一关键词中第1个字与第r个项目标签的相似度误差后,即可进行相似度的计算,如下述步骤S33所示。
S33.根据所述相似度误差值,计算得到所述判断关键字与第r个项目标签的相似度;具体应用时,相应的,按照如下公式(3),计算得到所述判断关键字与第r个项目标签的相似度:
Figure BDA0003887613010000151
上述式(3)中,SI(V,m,r)表示所述判断关键字与第r个项目标签的相似度。
还是在前述举例的基础上,来阐述判断关键字与第r个项目标签的相似度计算过程:
前述第r个项目标签为:“四川西部成都西门教学楼项目”,其文字长度为13,因此,SI(V,1,r)为:
Figure BDA0003887613010000152
当计算得到任一关键词中第1个字与第r个项目标签的相似度后,采用前述相同的方法,即可计算出任一关键词中其余各字与第r个项目标签的相似度,最后,利用任一关键词中各字与第r个项目标签的相似度,即可得出任一关键词与第r个项目标签的相似度,具体的,如下述步骤S34和步骤S35所示。
S34.当m从1轮询至M时,得到任一关键词中每个文字与第r个项目标签的相似度,其中,M为所述任一关键词中文字的总个数;在本实施例中,采用前述相同方法,来计算任一关键词中其余各字与第r项目标签的相似度,其过程可参见前述步骤S31~S33,于此不再赘述。
S35.基于任一关键词中每个文字与第r个项目标签的相似度,得到所述任一关键词与所述第r个项目标签的相似度;具体应用时,按照如下公式(4),计算得到所述任一关键词与所述第r个项目标签的相似度:
Figure BDA0003887613010000161
上述式(4)中,SI(V,r)表示任一关键词与所述第r个项目标签的相似度,M为所述任一关键词中文字的总个数。
在本实施例中,相当于是将求和任一关键词中每个字与第r个项目标签的相似度,并使用求和结果除以任一关键词中文字的总个数,最后,得到的结果则是任一关键词与第r个项目标签的相似度。
同理,对于其余各个项目标签,也采用前述相同的方法来进行相似度的计算,即当r从1轮询至t时,即可得到任一关键词,与第i条工程造价信息中每个项目标签的相似度,具体的,计算过程如下述步骤S36所示。
S36.当r从1轮询至t时,得到任一关键词,与第i条工程造价信息中每个项目标签的相似度,其中,t为所述第i条工程造价信息中项目标签的总数目。
由此通过前述步骤S31~S36,即可计算出工程造价查询关键词中任一关键词与第i条工程造价信息中每个项目标签的相似度;同理,对于工程造价查询关键词中的其余关键词,也采用前述步骤S31~S36所公开的方法,进行相似度的计算,计算完毕后,即可得到工程造价查询关键词中每个关键词,与第i条工程造价信息之间的关联值。
在得到每个关键词与第i条工程造价信息之间的关联值后,即可基于关联值计算得到工程造价查询关键词与所述第i条工程造价信息之间的匹配度,如下述步骤S4所示。
S4.基于所述工程造价查询关键词中每个关键词与第i条工程造价信息之间的关联值,计算得到所述工程造价查询关键词与所述第i条工程造价信息之间的匹配度;具体应用时,可将每个关键词与第i条工程造价信息之间的关联值的总和,作为工程造价查询关键词与第i条工程造价信息之间的匹配度。
在得到工程造价查询关键词与第i条工程造价信息的匹配度后,即可将i自加1,然后使用前述步骤S31~S36,计算工程造价查询关键词中各个关键词,与第i+1条工程造价信息中每个项目标签的相似度,得到工程造价查询关键词与第i+1条工程造价信息的匹配度;接着,再计算工程造价查询关键词中各个关键词,与第i+2条工程造价信息中个项目标签的相似度,得到工程造价查询关键词与第i+2条工程造价信息的匹配度;以此循环,直至i从1轮询至n时,得到工程造价查询关键词与每条工程造价信息之间的匹配度,如下述步骤S5所示。
S5.当i从1轮询至n时,得到所述工程造价查询关键词与每条工程造价信息之间的匹配度,其中,n为正整数,且为所述工程造价数据库中存储的工程造价信息的总数目。
在得到所述工程造价查询关键词与每条工程造价信息之间的匹配度后,即可按照匹配度来进行结果的筛选;在本实施例中,匹配度越大,说明工程造价查询关键词与工程造价信息越相似,关联度越高,因此,即可将匹配度前k位的工程造价信息中的项目造价数据集,作为查询结果,并进行可视化展示,如下述步骤S6所示。
S6.按照匹配度从高到低的顺序排序所述工程造价数据库中的工程造价信息,并取排序前k位的工程造价信息对应的项目造价数据集,作为所述工程造价查询语句的查询结果,以便将所述查询结果按照匹配度排序顺序进行可视化展示,其中,k为正整数;具体应用时,可以不限于取排序前10位进行可视化展示,当然,k的数值可根据实际使用进行具体设定,在此不限定于前述举例。
由此通过前述步骤S1~S6所详细描述的工程造价信息查询方法,本发明可实现工程造价信息的快速查询,并可按照匹配度从高到低的顺序,将与查询需求匹配度最高的信息进行可视化展示,同时,本发明无需人工手动查看数据,避免了人工筛选结果的问题,不仅提高了查询效率,还降低了人力物力成本。
如图2所示,本实施例第二方面提供了一种实现实施例第一方面中所述的工程造价信息查询方法的硬件系统,包括:
获取模块,用于获取工程造价查询语句以及工程造价数据库,其中,所述工程造价数据库中存储有海量工程造价信息,每条工程造价信息包括项目造价数据集以及若干项目标签,且任一项目标签用于表征对应项目的工程概况中的一种工程信息。
分词模块,用于基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词。
相似度计算模块,对于工程造价查询关键词中的任一关键词,用于计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,并将最大相似度作为所述任一关键词与第i条工程造价信息之间的关联值,以便在计算出工程造价查询关键词中所有关键词与第i条工程造价信息中每个项目标签的相似度后,得到每个关键词与第i条工程造价信息之间的关联值,其中,i为正整数。
相似度计算模块,用于基于所述工程造价查询关键词中每个关键词与第i条工程造价信息之间的关联值,计算得到所述工程造价查询关键词与所述第i条工程造价信息之间的匹配度。
相似度计算模块,用于当i从1轮询至n时,计算得到所述工程造价查询关键词与每条工程造价信息之间的匹配度,其中,n为正整数,且为所述工程造价数据库中存储的工程造价信息的总数目。
造价查询模块,用于按照匹配度从高到低的顺序排序所述工程造价数据库中的工程造价信息,并取排序前k位的工程造价信息对应的项目造价数据集,作为所述工程造价查询语句的查询结果,以便将所述查询结果按照匹配度排序顺序进行可视化展示,其中,k为正整数。
本实施例提供的装置的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
如图3所示,本实施例第三方面提供了另一种工程造价信息查询系统,以系统为电子设备为例,包括:依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如实施例第一方面所述的工程造价信息查询方法。
具体举例的,所述存储器可以但不限于包括随机存取存储器(random accessmemory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等等;具体地,处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现,同时,处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
在一些实施例中,处理器可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制,例如,所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机(reduced instruction setcomputer,RISC)微处理器、X86等架构处理器或集成嵌入式神经网络处理器(neural-network processing units,NPU)的处理器;所述收发器可以但不限于为无线保真(WIFI)无线收发器、蓝牙无线收发器、通用分组无线服务技术(General Packet Radio Service,GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议,ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。此外,所述装置还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例提供的电子设备的工作过程、工作细节和技术效果,可以参见实施例第一方面,,于此不再赘述。
本实施例第四方面提供了一种存储包含有实施例第一方面所述的工程造价信息查询方法的指令的存储介质,即所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面所述的工程造价信息查询方法。
其中,所述存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例提供的存储介质的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如实施例第一方面所述的工程造价信息查询方法,其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种工程造价信息查询方法,其特征在于,包括:
获取工程造价查询语句以及工程造价数据库,其中,所述工程造价数据库中存储有海量工程造价信息,每条工程造价信息包括项目造价数据集以及若干项目标签,且任一项目标签用于表征对应项目的工程概况中的一种工程信息;
基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词;
对于工程造价查询关键词中的任一关键词,计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,并将最大相似度作为所述任一关键词与第i条工程造价信息之间的关联值,以便在计算出工程造价查询关键词中所有关键词与第i条工程造价信息中每个项目标签的相似度后,得到每个关键词与第i条工程造价信息之间的关联值,其中,i为正整数;
基于所述工程造价查询关键词中每个关键词与第i条工程造价信息之间的关联值,计算得到所述工程造价查询关键词与所述第i条工程造价信息之间的匹配度;
当i从1轮询至n时,得到所述工程造价查询关键词与每条工程造价信息之间的匹配度,其中,n为正整数,且为所述工程造价数据库中存储的工程造价信息的总数目;
按照匹配度从高到低的顺序排序所述工程造价数据库中的工程造价信息,并取排序前k位的工程造价信息对应的项目造价数据集,作为所述工程造价查询语句的查询结果,以便将所述查询结果按照匹配度排序顺序进行可视化展示,其中,k为正整数。
2.根据权利要求1所述的方法,其特征在于,所述分词词典包括:关键字查询表以及若干词语长度表,其中,所述关键字查询表包括若干关联有位置哈希值的汉字,每个汉字关联有一为空或为非空的词语长度表,每个非空的词语长度表按照词语长度依次划分有多个词语队列,且任一词语队列中的各个词语长度相同;
相应的,基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词,包括:
基于所述工程造价查询语句中的标点符号,对所述工程造价查询语句进行语句分割,得到多个分割字段;
B.对于所述多个分割字段中的第x个分割字段,获取所述第x个分割字段中的第j个字的ASCII码,其中,j从1开始,且j为正整数;
C.基于所述第j个字的ASCII码,计算得到所述第j个字的查询哈希值;
D.根据所述查询哈希值,在所述关键字查询表中匹配出与所述查询哈希值对应的位置哈希值,以将匹配出的位置哈希值对应汉字的词语长度表,作为分词表;
E.判断所述分词表是否为空;
F.若否,则将所述分词表中的最大词语长度作为分词长度,并以所述第j个字为首字,按照所述分词长度从所述第x个分割字段中截取出分割字符串;
G.在所述分词表中的第L长度对应的词语队列中,利用二分查找算法查询所述分割字符串是否存在于第L长度对应的词语队列中,其中,L为分词表中的最大词语长度;
H.若分割字符串存在于第L长度对应的词语队列中,则将分割字符串作为切分的词语;
I.将j更新为j+h,并判断更新后的j是否大于所述第x个分割字段的最大长度,其中,h为所述分词长度;
J.若否,则并重新执行步骤B-H,直至j大于所述最大长度时为止,以在j大于所述最大长度时,完成所述第x个分割字段的切分;
当x从1轮询至y时,完成所述工程造价查询语句的分词处理,得到所述多个词语,其中,y为分割字段的总个数。
3.根据权利要求2所述的方法,其特征在于,若所述分割字符串不存在于第L长度对应的词语队列中,则所述方法还包括:
将分词长度自减1,并以所述第j个字为首字,重新按照所述分词长度从所述第x个分割字段中截取出分割字符串;
将L自减1,并重新执行步骤G-J,直至j大于所述最大长度时为止。
4.根据权利要求2所述的方法,其特征在于,若所述分词表为空,则所述方法包括:
将所述第j个字作为切分的词语;
将j自加1,并重新执行步骤B-J,直至j大于所述最大长度时为止。
5.根据权利要求1所述的方法,其特征在于,计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,包括:
以所述任一关键词中的第m个字为判断关键字,构建所述判断关键字与第i条工程造价信息中第r个项目标签的文字匹配集合,其中,文字匹配集合为:
T(V,m,r)={b|rb=Vm,b=1,2,...,R} (1)
上述式(1)中,T(V,m,r)为所述文字匹配集合,V表示任一关键词,Vm表示判断关键字,b表示第r个项目标签中与判断关键字相同的字,rb表示第r个项目标签中与判断关键字相同的字所处的位置,R为第r个项目标签的文字长度;
基于所述文字匹配集合,计算得到所述判断关键字与第r个项目标签的相似度误差值;
根据所述相似度误差值,计算得到所述判断关键字与第r个项目标签的相似度;
当m从1轮询至M时,得到任一关键词中每个文字与第r个项目标签的相似度,其中,M为所述任一关键词中文字的总个数;
基于任一关键词中每个文字与第r个项目标签的相似度,得到所述任一关键词与所述第r个项目标签的相似度;
当r从1轮询至t时,得到任一关键词,与第i条工程造价信息中每个项目标签的相似度,其中,t为所述第i条工程造价信息中项目标签的总数目。
6.根据权利要求5所述的方法,其特征在于,基于所述文字匹配集合,计算得到所述判断关键字与第r个项目标签的相似度误差值,包括:
按照如下公式(2),计算得到所述相似度误差值S(V,m,r):
Figure FDA0003887612000000041
相应的,按照如下公式(3),计算得到所述判断关键字与第r个项目标签的相似度:
Figure FDA0003887612000000042
上述式(3)中,SI(V,m,r)表示所述判断关键字与第r个项目标签的相似度。
7.根据权利要求6所述方法的方法,其特征在于,基于任一关键词中每个文字与第r个项目标签的相似度,得到所述任一关键词与所述第r个项目标签的相似度,包括:
按照如下公式(4),计算得到所述任一关键词与所述第r个项目标签的相似度:
Figure FDA0003887612000000043
上述式(4)中,SI(V,r)表示任一关键词与所述第r个项目标签的相似度,M为所述任一关键词中文字的总个数。
8.一种工程造价信息查询系统,其特征在于,包括:
获取模块,用于获取工程造价查询语句以及工程造价数据库,其中,所述工程造价数据库中存储有海量工程造价信息,每条工程造价信息包括项目造价数据集以及若干项目标签,且任一项目标签用于表征对应项目的工程概况中的一种工程信息;
分词模块,用于基于分词词典,对所述工程造价查询语句进行分词处理,得到多个词语,以将多个词语作为工程造价查询关键词;
相似度计算模块,对于工程造价查询关键词中的任一关键词,用于计算所述任一关键词,与第i条工程造价信息中每个项目标签之间的相似度,并将最大相似度作为所述任一关键词与第i条工程造价信息之间的关联值,以便在计算出工程造价查询关键词中所有关键词与第i条工程造价信息中每个项目标签的相似度后,得到每个关键词与第i条工程造价信息之间的关联值,其中,i为正整数;
相似度计算模块,用于基于所述工程造价查询关键词中每个关键词与第i条工程造价信息之间的关联值,计算得到所述工程造价查询关键词与所述第i条工程造价信息之间的匹配度;
相似度计算模块,用于当i从1轮询至n时,计算得到所述工程造价查询关键词与每条工程造价信息之间的匹配度,其中,n为正整数,且为所述工程造价数据库中存储的工程造价信息的总数目;
造价查询模块,用于按照匹配度从高到低的顺序排序所述工程造价数据库中的工程造价信息,并取排序前k位的工程造价信息对应的项目造价数据集,作为所述工程造价查询语句的查询结果,以便将所述查询结果按照匹配度排序顺序进行可视化展示,其中,k为正整数。
9.一种工程造价信息查询系统,其特征在于,包括:依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~7任意一项所述的工程造价信息查询方法。
10.一种存储介质,其特征在于,所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~7任意一项所述的工程造价信息查询方法。
CN202211249832.8A 2022-10-12 2022-10-12 一种工程造价信息查询方法、系统及存储介质 Active CN115545783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211249832.8A CN115545783B (zh) 2022-10-12 2022-10-12 一种工程造价信息查询方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211249832.8A CN115545783B (zh) 2022-10-12 2022-10-12 一种工程造价信息查询方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115545783A true CN115545783A (zh) 2022-12-30
CN115545783B CN115545783B (zh) 2023-08-01

Family

ID=84734239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211249832.8A Active CN115545783B (zh) 2022-10-12 2022-10-12 一种工程造价信息查询方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115545783B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454225A (zh) * 2023-11-13 2024-01-26 承德市工程建设造价管理站 一种工程造价数据管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275148A1 (en) * 2015-03-20 2016-09-22 Huawei Technologies Co., Ltd. Database query method and device
CN109977277A (zh) * 2019-04-04 2019-07-05 明觉科技(北京)有限公司 基于检索系统的汽车信息查询方法、装置及电子设备
CN110473067A (zh) * 2019-08-14 2019-11-19 杭州品茗安控信息技术股份有限公司 构件的造价标准文件确定方法、装置、设备及存储介质
CN111090771A (zh) * 2019-10-31 2020-05-01 腾讯音乐娱乐科技(深圳)有限公司 歌曲搜索方法、装置及计算机存储介质
CN112347310A (zh) * 2020-11-05 2021-02-09 中国平安人寿保险股份有限公司 事件处理信息的查询方法、装置、计算机设备和存储介质
CN112685475A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 报表查询方法、装置、计算机设备及存储介质
CN114385780A (zh) * 2021-11-30 2022-04-22 北京凯睿数加科技有限公司 程序接口信息推荐方法、装置、电子设备和可读介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275148A1 (en) * 2015-03-20 2016-09-22 Huawei Technologies Co., Ltd. Database query method and device
CN109977277A (zh) * 2019-04-04 2019-07-05 明觉科技(北京)有限公司 基于检索系统的汽车信息查询方法、装置及电子设备
CN110473067A (zh) * 2019-08-14 2019-11-19 杭州品茗安控信息技术股份有限公司 构件的造价标准文件确定方法、装置、设备及存储介质
CN111090771A (zh) * 2019-10-31 2020-05-01 腾讯音乐娱乐科技(深圳)有限公司 歌曲搜索方法、装置及计算机存储介质
CN112347310A (zh) * 2020-11-05 2021-02-09 中国平安人寿保险股份有限公司 事件处理信息的查询方法、装置、计算机设备和存储介质
CN112685475A (zh) * 2020-12-30 2021-04-20 平安普惠企业管理有限公司 报表查询方法、装置、计算机设备及存储介质
CN114385780A (zh) * 2021-11-30 2022-04-22 北京凯睿数加科技有限公司 程序接口信息推荐方法、装置、电子设备和可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117454225A (zh) * 2023-11-13 2024-01-26 承德市工程建设造价管理站 一种工程造价数据管理系统
CN117454225B (zh) * 2023-11-13 2024-05-14 承德市工程建设造价管理站 一种工程造价数据管理系统

Also Published As

Publication number Publication date
CN115545783B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
US20200097473A1 (en) Method and/or system for processing data streams
CN109255564B (zh) 一种取件点地址推荐方法及装置
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN108959453B (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
WO2021218027A1 (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN115545783B (zh) 一种工程造价信息查询方法、系统及存储介质
CN113157927A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113868528A (zh) 资讯推荐方法、装置、电子设备及可读存储介质
CN114186132A (zh) 信息推荐方法、装置、电子设备及存储介质
CN113505273B (zh) 基于重复数据筛选的数据排序方法、装置、设备及介质
CN113687825A (zh) 一种软件模块的构建方法、装置、设备及存储介质
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
CN116521845B (zh) 一种复杂电子表格文件的读取方法及电子设备
CN107766537A (zh) 一种职位搜索排序方法及计算设备
CN115759014A (zh) 一种动态智能化分析方法、系统及电子设备
CN106156116A (zh) 信息发布方法和系统
CN113268614A (zh) 标签体系更新方法、装置、电子设备及可读存储介质
CN110472006B (zh) 捐助对象搜索方法、装置、电子设备及存储介质
CN113946755A (zh) 基于关联规则的信息推送方法、装置、设备及存储介质
CN102567420B (zh) 文档检索方法和装置
CN112328653A (zh) 数据识别方法、装置、电子设备及存储介质
CN105279287A (zh) 一种物资编目检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant