CN111737428A - 一种目标材料匹配方法、装置、设备及可读存储介质 - Google Patents

一种目标材料匹配方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111737428A
CN111737428A CN202010531575.1A CN202010531575A CN111737428A CN 111737428 A CN111737428 A CN 111737428A CN 202010531575 A CN202010531575 A CN 202010531575A CN 111737428 A CN111737428 A CN 111737428A
Authority
CN
China
Prior art keywords
target
target material
attribute
main body
description information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010531575.1A
Other languages
English (en)
Other versions
CN111737428B (zh
Inventor
李果成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glodon Co Ltd
Original Assignee
Glodon Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glodon Co Ltd filed Critical Glodon Co Ltd
Priority to CN202010531575.1A priority Critical patent/CN111737428B/zh
Publication of CN111737428A publication Critical patent/CN111737428A/zh
Application granted granted Critical
Publication of CN111737428B publication Critical patent/CN111737428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标材料匹配方法、装置、设备及可读存储介质,其中,该方法包括:获取目标材料的文本数据,根据文本数据确定材料主体信息和目标属性描述信息;根据目标属性描述信息,计算目标材料对应的权重值;根据材料主体信息和权重值,构造查询语句;根据查询语句,对材料数据进行检索获得目标材料对应的目标材料数据。通过实施本发明,避免了目标材料描述不统一而导致的匹配差异,满足了用户对不同目标材料匹配需求,提高了目标材料的匹配准确性。

Description

一种目标材料匹配方法、装置、设备及可读存储介质
技术领域
本发明涉及搜索引擎技术领域,具体涉及一种目标材料匹配方法、装置、设备及可读存储介质。
背景技术
建筑清单材料匹配,是在建筑行业信息化日趋成熟的阶段下产生的刚性需求,目的是将各类材料数据信息及报价信息与清单数据中的材料进行匹配,以提供造价相关工作的价格内容参考。然而,建筑领域的建筑材料描述缺乏标准规范,不同的建筑材料的关注重点不同,建筑领域技术人员对不同建筑材料的不同属性值匹配一致性有不同的期望和要求,例如:建筑领域技术人员在搜索“钢筋混凝土排水管”时,期望所匹配到的建筑材料具有材质一致性,即“钢筋混凝土”,而搜索引擎返回的匹配结果可能是“塑料排水管”,无法满足建筑领域技术人员的搜索需求;且清单材料的描述也没有统一模板,且清单材料中可以增加与建筑材料无关的附属信息描述,因此无法通过结构化解析对齐方式对清单材料进行匹配。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中建筑材料描述不统一导致目标材料无法准确匹配的缺陷,从而提供一种目标材料匹配方法、装置、设备及可读存储介质。
根据第一方面,本发明实施例提供一种目标材料匹配方法,包括:获取目标材料的文本数据,根据所述文本数据确定材料主体信息和目标属性描述信息;根据所述目标属性描述信息,计算所述目标材料对应的权重值;根据所述材料主体信息和所述权重值,构造查询语句;根据所述查询语句,对材料数据进行检索获得所述目标材料对应的目标材料数据。
结合第一方面,在第一方面的第一实施方式中,所述获取目标材料的文本数据,根据所述文本数据确定材料主体信息,包括:获取所述目标材料的材料名称,采用实体识别模型对所述材料名称中的材料主体进行识别,确定所述目标材料的材料主体信息。
结合第一方面第一实施方式,在第一方面的第二实施方式中,所述获取目标材料的文本数据,根据所述文本数据确定目标属性描述信息,包括:基于预设匹配方法,识别所述目标材料对应的所述文本数据中的多个属性项,获得多个所述属性项对应的多个属性值;将多个所述属性值拼接成字符串,对所述字符串进行分词,得到所述目标材料对应的分词结果,作为属性描述信息;根据所述属性描述信息和所述材料主体信息,确定所述目标材料对应的目标属性描述信息。
结合第一方面第二实施方式,在第一方面的第三实施方式中,所述根据所述属性描述信息和所述材料主体信息,确定所述目标材料对应的目标属性描述信息,包括:根据所述目标材料的材料名称及所述目标材料的材料主体信息,确定目标材料的描述性词汇;根据所述目标材料的描述性词汇及所述属性描述信息的去重结果,确定所述目标属性描述信息。
结合第一方面第二实施方式,在第一方面的第四实施方式中,所述根据所述目标属性描述信息,计算所述目标材料对应的权重值,包括:统计各个所述属性值和所述材料主体信息在材料数据中的第一出现次数,根据所述材料数据的词汇量和所述第一出现次数,计算得到词频值;将所述材料主体信息与各个所述属性值分别进行组合,分别统计所述材料主体信息在所述材料数据中的第二出现次数和所述材料主体信息与各个所述属性值在所述材料数据中的第三出现次数,计算得到逆文本频率值;根据所述词频值和所述逆文本频率值,计算得到所述目标材料对应的权重值。
结合第一方面第四实施方式,在第一方面的第五实施方式中,所述根据所述材料主体信息和所述权重值,构造查询语句,包括:以所述目标属性描述信息与所述权重值为过滤条件,根据所述材料主体信息及权重值对目标属性描述信息中的所述属性值进行加权,生成检索所述目标材料的查询语句。
根据第二方面,本发明实施例提供一种目标材料匹配装置,包括:获取模块,用于获取目标材料的文本数据,根据所述文本数据确定材料主体信息和目标属性描述信息;计算模块,用于根据所述目标属性描述信息,计算所述目标材料对应的权重值;构造模块,用于根据所述材料主体信息和所述权重值,构造查询语句;匹配模块,用于根据所述查询语句,对材料数据进行检索获得所述目标材料对应的目标材料数据。
结合第二方面,在第二方面的第一实施方式中,所述获取模块,包括:第一确定子模块,用于获取所述目标材料的材料名称,采用实体识别模型对所述材料名称中的材料主体进行识别,确定所述目标材料的材料主体信息;识别子模块,用于基于预设匹配方法,识别所述目标材料对应的所述文本数据中的多个属性项,获得多个所述属性项对应的多个属性值;划分子模块,用于将多个所述属性值拼接成字符串,对所述字符串进行分词,得到所述目标材料对应的分词结果,作为属性描述信息;第二确定子模块,用于根据所述属性描述信息和所述材料主体信息,确定所述目标材料对应的目标属性描述信息。
根据第三方面,本发明实施例提供一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或第一方面任一实施方式所述的目标材料匹配方法。
根据第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行第一方面或第一方面任一实施方式所述的目标材料匹配方法。
本发明技术方案,具有如下优点:
本发明提供的目标材料匹配方法、装置、设备及可读存储介质,通过获取目标材料的文本数据,根据文本数据确定材料主体信息和属性描述信息,根据属性描述信息,计算目标材料对应的权重值,再根据材料主体信息和权重值,构造查询语句,根据查询语句,对材料数据进行检索获取目标材料对应的目标材料数据。通过识别材料主体信息避免了目标材料描述不统一而导致的匹配差异,计算材料主体信息与属性描述信息之间的权重值,按照权重值构建查询语句,满足了用户对不同目标材料匹配需求,提高了目标材料的匹配准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中目标材料匹配方法的流程图;
图2为本发明实施例中目标材料匹配方法的另一流程图;
图3为本发明实施例中目标材料匹配方法的另一流程图;
图4为本发明实施例中目标材料匹配装置的原理框图;
图5为本发明实施例中计算机设备的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供一种目标材料匹配方法,可以应用于建筑清单材料搜索中,以避免建筑清单材料的无法准确匹配的问题,如图1所示,该方法包括如下步骤:
S11,获取目标材料的文本数据,根据文本数据确定材料主体信息和目标属性描述信息。
示例性地,目标材料为建筑清单材料上所列举的建筑材料,文本数据为建筑材料对应的材料信息。从文本数据中提取目标材料对应的材料主体信息和目标属性描述信息。比如,目标材料的文本数据为“名称:火烧面芝麻黑花岗石;规格:1、产地:福建2、厚度(mm):20 3、品种:福建芝麻黑花岗岩4、系列:福建芝麻黑5、表面处理:火烧面6、规格(mm):600×600 7、规格(厚):20 8、规格(宽):600 9、规格(长):600”,则从该文本数据中提取到的目标属性描述信息为“福建,20,福建,芝麻黑,福建,芝麻黑,火烧面,600×600,20,600,600,火烧面,芝麻黑”,材料主体信息为“花岗岩”。
S12,根据目标属性描述信息计算目标材料对应的权重值。
示例性地,权重值以词频TF和逆文本频率IDF的乘积表示,用于表征目标材料匹配结果的关联度。目标属性描述信息可以由多个属性值构成,将材料主体信息与目标属性描述信息中的属性值一一进行组合,计算目标材料对应的权重值序列。
S13,根据材料主体信息和权重值,构造查询语句。
示例性地,根据材料主体信息和权重值序列,可以构建查询语句,以solr搜索引擎的查询语句为例,若材料主体信息为“花岗岩”,目标属性描述信息为“福建,20,芝麻黑,火烧面,600×600,600”,材料主体信息与属性值一一组合得到的权重值序列为“0,10,100,80,50,20”,则构造的查询语句为“本体:花岗岩AND规格参数:(20^10芝麻黑^100火烧面^80600×600^50 600^20)”。
S14,根据查询语句,对材料数据进行检索获得目标材料对应的目标材料数据。
示例性地,根据构建的查询语句,在材料数据中查询目标材料,得到对应目标材料的多个搜索结果,匹配得到目标材料对应的目标材料数据。其中,材料数据由多个数据库组成,例如,百科数据库和行为数据库等包含目标材料的数据库。
具体的,根据构造的查询语句对材料数据进行检索,得到对应目标材料的检索材料数据。比如,查询语句为“本体:花岗岩AND规格参数:(20^10芝麻黑^100火烧面^80 600×600^50 600^20)”,则得到的检索材料数据包含材料主体信息“花岗岩”以及材料主体信息“花岗岩”对应的属性值“福建”、“20”、“芝麻黑”、“火烧面”、“600×600”和“600”中的一种或多种。由于在检索材料数据中一定包含有材料主体信息和目标属性描述信息中的一种或多种,可以根据材料主体信息与属性值组合的权重值确定检索材料数据的关联度。比如,检索材料数据中包含材料主体信息和目标属性描述信息中所有的属性值,代表检索材料数据的关联度较高;检索材料数据中包含材料主体信息和权重值较高的属性值的关联度大于检索材料数据中包含材料主体信息和权重值较低的属性值的关联度。将检索材料数据按照关联度由高到低进行排序,并按照关联度由高到低依次输出,得到目标材料数据,实现了材料主体信息和目标属性描述信息权重值和关联度最高优先返回,满足了用户对不同目标材料不同属性值的匹配期望和要求,提高了目标材料的匹配准确度。
本实施例提供的目标材料匹配方法,通过获取目标材料的文本数据,根据文本数据确定材料主体信息和目标属性描述信息,根据目标属性描述信息,计算目标材料对应的权重值,根据材料主体信息和权重值,构造查询语句,根据查询语句,对材料数据进行检索获得目标材料对应的目标材料数据。通过识别材料主体信息避免了目标材料描述不统一而导致的匹配差异,计算材料主体信息与目标属性描述信息之间的权重值,按照权重值构建查询语句,满足了用户对不同目标材料匹配需求,提高了目标材料的匹配准确性。
以目标材料对应的文本数据为“名称:火烧面芝麻黑花岗石;规格:1、产地:福建2、厚度(mm):20 3、品种:福建芝麻黑花岗岩4、系列:福建芝麻黑5、表面处理:火烧面6、规格(mm):600×600 7、规格(厚):20 8、规格(宽):600 9、规格(长):600”为例,对本申请实施例中的材料主体信息、目标属性描述信息、属性项、属性值、材料实体等多个概念进行说明。其中,目标材料的材料名称为:火烧面芝麻黑花岗石;目标材料的材料主体信息为:花岗岩;属性项为:产地、厚度(mm)、品种等;属性值为属性项的对应值,比如福建、20、福建芝麻黑花岗岩等;目标属性描述信息为除材料主体信息之外的描述性词汇,比如“福建,20,芝麻黑,火烧面,600×600,600”,材料实体为材料主体信息对应的实质材料,此例中的材料实体和材料主体信息均为“花岗岩”。
作为一个可选的实施方式,如图2所示,上述步骤S11,包括:
S111,获取目标材料的材料名称,采用实体识别模型对材料名称中的材料主体进行识别,确定目标材料的材料主体信息。
示例性地,实体识别模型可以通过标注的大量材料主体语料训练得到,将给定的材料名称输入至实体识别模型中,对目标材料的材料主体进行预测识别,将识别得到的材料实体作为材料主体信息。比如,目标材料的材料名称为“火烧面芝麻黑花岗石”,可以采用长短期记忆网络(Long Short-Term Memory,LSTM)结合条件随机场(Conditional RandomField,CRF)的机器学习算法对材料名称中包含的材料实体“花岗石”进行识别,确定目标材料的材料主体信息为“花岗石”。
作为一个可选的实施方式,如图2所示,上述步骤S11,还包括:
S112,基于预设匹配方法,识别目标材料对应的文本数据中的多个属性项,获得多个属性项对应的多个属性值。
示例性地,预设匹配方法可以为正则表达式,通过正则表达式获取文本数据中属性项和属性值对应的文本行,属性项和属性值之间一般通过标点符号进行连接,例如“属性项:属性值”,再通过识别对文本行中的标点符号,确定属性项部分和属性值部分。比如,目标材料对应的文本数据为“名称:火烧面芝麻黑花岗石;规格:1、产地:福建2、厚度(mm):203、品种:福建芝麻黑花岗岩4、系列:福建芝麻黑5、表面处理:火烧面6、规格(mm):600×6007、规格(厚):20 8、规格(宽):600 9、规格(长):600”,使用正则表达式对规格信息中包含的序号(如1、2、3、等)进行识别,获取每个属性项和属性值的文本行,再识别冒号“:”,分别得到该文本数据中的多个属性项“产地”、“厚度(mm)”、“品种”、“系列”、“表面处理”、“规格(mm)”、“规格(厚)”、“规格(宽)”和“规格(长)”,以及各属性项对应的属性值“福建”、“20”、“福建芝麻黑花岗岩”、“福建芝麻黑”、“火烧面”、“600×600”、“20”、“600”和“600”。本申请对预设匹配方法不作限定,本领域技术人员可以根据实际需要确定。
S113,将多个属性值拼接成字符串,对字符串进行分词,得到目标材料对应的分词结果,作为属性描述信息。
示例性地,将获取的多个属性值“福建”、“20”、“福建芝麻黑花岗岩”、“福建芝麻黑”、“火烧面”、“600×600”、“20”、“600”和“600”进行拼接,得到属性值拼接字符串“福建+20+福建芝麻黑花岗岩+福建芝麻黑+火烧面+600×600+20+600+600”,使用分词器对属性值拼接字符串进行分词,得到目标材料对应的分词结果为“福建,20,福建,芝麻黑,花岗岩,福建,芝麻黑,火烧面,600×600,20,600,600”,以该分词结果作为目标材料的属性描述信息。分词器可以为IKanalyzer分词器,本申请对此不作限定。
S114,根据材料主体信息和属性描述信息,确定目标材料对应的目标属性描述信息。
示例性地,判断属性描述信息中是否包含有材料主体信息,若属性描述信息中包含材料主体信息,则将属性描述信息中包含的材料主体信息除去,得到目标属性描述信息;若属性描述信息中不包含材料主体信息,则步骤S113获取的属性描述信息即为目标属性描述信息。比如,目标材料的材料主体信息为“花岗岩”,则检查属性描述信息“福建,20,福建,芝麻黑,花岗岩,福建,芝麻黑,火烧面,600×600,20,600,600”中是否包含材料主体“花岗岩”,若存在,则剔除属性描述信息中的材料主体信息,得到目标属性描述信息“福建,20,福建,芝麻黑,福建,芝麻黑,火烧面,600×600,20,600,600”。
作为一个可选的实施方式,上述步骤S114,包括:
首先,根据目标材料的材料名称及目标材料的材料主体信息,确定目标材料的描述性词汇。
示例性地,以目标材料的材料名称“火烧面芝麻黑花岗岩”为例,材料名称包含材料实体名词“花岗岩”及用于描述目标材料特性的名词“火烧面”和“芝麻黑”。实体识别模型可以对材料名称中包含的材料实体名词“花岗岩”进行识别得到材料主体信息,将材料主体信息之外的名词“火烧面”和“芝麻黑”作为目标材料的描述性词汇。
其次,根据目标材料的描述性词汇及属性描述信息的去重结果,确定目标属性描述信息。
示例性地,为使得目标属性描述信息更为准确,将目标材料的描述性词汇添加到属性描述信息中,得到更为全面的属性描述信息,对属性描述信息进行去重处理,剔除属性描述信息中重复的属性值,得到目标属性描述信息。
例如,将得到的目标材料的描述性词汇“火烧面”和“芝麻黑”添加到属性描述信息“福建,20,福建,芝麻黑,福建,芝麻黑,火烧面,600×600,20,600,600”中,得到更为全面的属性描述信息“福建,20,福建,芝麻黑,花岗岩,福建,芝麻黑,火烧面,600×600,20,600,600,火烧面,芝麻黑”。对该属性描述信息进行去重处理,剔除属性描述信息中重复的属性值,得到目标属性描述信息“福建,20,芝麻黑,600×600,600”。
相比于现有技术中采用人工信息提取,然后再到各类材料报价网站中根据关键词进行材料搜索或通过类别目录等其他浏览方式进行材料检索,最后再通过建筑领域技术人员对相关材料进行人工识别并提取相关材料的报价信息,完成清单材料匹配工作的清单材料匹配方法,本实施例提供的目标材料的匹配方法通过对实体识别模型对材料主体信息进行实体识别,通过预设匹配方法对属性描述信息进行提取,无需人工进行信息提取和人工检索匹配,节省了人力资源,提高了清单材料的匹配效率。
作为一个可选的实施方式,如图3所示,上述步骤S12,包括:
S121,统计各个属性值和材料主体信息在材料数据中的第一出现次数,根据材料数据的词汇量和第一出现次数,计算得到词频值。
示例性地,统计目标材料对应的材料主体信息和目标属性描述信息中包含的各个属性值在材料数据中共同出现的第一出现次数,以及材料数据中包含的词汇量,词频值可以通过计算第一出现次数除以材料数据的词汇量得到。比如,属性值对应词汇“五莲红”与材料主体信息对应词汇“花岗岩”的第一出现次数为2000,清单建筑材料的材料数据对应词汇量为200000,则词频值TF=2000/200000=0.01。
S122,将材料主体信息与各个属性值分别进行组合,分别统计材料主体信息在材料数据中的第二出现次数和材料主体信息与各个属性值在材料数据中的第三出现次数,计算得到逆文本频率值。
示例性地,统计材料主体信息对应词汇在材料数据中出现的第二出现次数,以及材料主体信息对应词汇分别与各属性值组合在材料数据中出现的第三出现次数,逆文本频率值可以通过第二出现次数除以第三出现次数,再将第二出现次数除以第三出现次数得到的商取以10为底的对数得到。比如,材料主体信息对应词汇“花岗岩”在材料数据中的第二出现次数为10000,材料主体信息对应词汇“花岗岩”与属性值“五莲红”组合在材料数据中出现的第三出现次数为100,则逆文本频率值IDF=lg(10000/100)=2。
S123,根据词频值和逆文本频率值,计算得到目标材料对应的权重值。
示例性地,目标材料对应的权重值可以通过词频值TF与逆文本频率值IDF相乘得到。若词频值TF=0.01,逆文本频率值IDF=2,则权重值为0.02。此处可以将计算得到的权重值以key-value的形式存储至Redis中,其中,Key为组合权重combination_weihgt,类别field:属性值对应词汇和材料主体对应词汇;value为权重值。比如,key:combination_weihgt,field:五莲红花岗岩,value:0.02。
作为一个可选的实施方式,上述步骤S13,包括:以目标属性描述信息与权重值为过滤条件,根据材料主体信息及权重值对目标属性描述信息中的属性值进行加权,生成检索目标材料的查询语句。
示例性地,依次计算材料实体和各属性值组合的权重值,过滤到权重值为0的属性值,根据过滤后得到的材料实体和各属性值组合的权重值和作为必要匹配条件的材料主体信息进行加权,生成查询语句。以solr搜索引擎查询语句构造为例,若材料主体信息“花岗岩”与目标属性描述信息“福建,20,芝麻黑,火烧面,600×600,600”中的属性值一一进行组合得到的权重值序列为“0,10,100,80,50,20”,过滤掉权重值为0的属性值“福建”,将过滤后的目标属性描述信息“20,芝麻黑,火烧面,600×600,600”与材料主体信息“花岗岩”进行加权,生成查询语句“本体:花岗岩AND规格参数:(20^10芝麻黑^100火烧面^80 600×600^50600^20)”。
实施例2
本实施例提供一种目标材料匹配装置,可以应用于建筑清单材料搜索中,以避免建筑清单材料的无法准确匹配的问题,如图4所示,该装置包括:
获取模块21,用于获取目标材料的文本数据,根据文本数据确定目标材料对应的材料主体信息和目标属性描述信息。详细内容参见上述实施例对应步骤S11的相关描述,此处不再赘述。
计算模块22,用于根据目标属性描述信息,计算目标材料对应的权重值。详细内容参见上述实施例对应步骤S12的相关描述,此处不再赘述。
构造模块23,用于根据材料主体信息和权重值,构造查询语句。详细内容参见上述实施例对应步骤S13的相关描述,此处不再赘述。
匹配模块24,用于根据查询语句,对材料数据进行检索获得目标材料对应的目标材料数据。详细内容参见上述实施例对应步骤S14的相关描述,此处不再赘述。
本实施例提供的目标材料匹配装置,通过获取目标材料的文本数据,根据文本数据生成目标材料对应的属性信息,其中,属性信息包括材料主体信息和目标属性描述信息,根据目标属性描述信息,计算目标材料对应的权重值,根据材料主体信息和权重值,构造查询语句,根据查询语句,对材料数据进行检索,匹配得到目标材料对应的目标材料数据。该装置通过识别材料主体信息避免了目标材料描述不统一而导致的匹配差异,计算材料主体信息与目标属性描述信息之间的权重值,按照权重值构建查询语句,满足了用户对不同目标材料匹配需求,提高了目标材料的匹配准确性。
作为一个可选的实施方式,上述获取模块21,包括:
第一确定子模块,用于获取目标材料的材料名称,采用实体识别模型对材料名称中的材料主体进行识别,确定目标材料的材料主体信息。详细内容参见上述实施例对应步骤S111的相关描述,此处不再赘述。
识别子模块,用于基于预设匹配方法,识别目标材料对应的文本数据中的多个属性项,获得多个属性项对应的多个属性值。详细内容参见上述实施例对应步骤S112的相关描述,此处不再赘述。
划分子模块,用于将多个属性值拼接成字符串,对字符串进行分词,得到目标材料对应的分词结果,作为属性描述信息。详细内容参见上述实施例对应步骤S113的相关描述,此处不再赘述。
第二确定子模块,用于根据属性描述信息和材料主体信息,确定目标材料对应的目标属性描述信息。详细内容参见上述实施例对应步骤S114的相关描述,此处不再赘述。
作为一个可选的实施方式,上述第二确定子模块,包括:
第一确定子单元,用于根据目标材料的材料名称及目标材料的材料主体信息,确定目标材料的描述性词汇。详细内容参见上述实施例的相关描述,此处不再赘述。
第二确定子单元,用于根据目标材料的描述性词汇及属性描述信息的去重结果,确定目标属性描述信息。详细内容参见上述实施例的相关描述,此处不再赘述。
相比于现有技术中采用人工信息提取,然后再到各类材料报价网站中根据关键词进行材料搜索或通过类别目录等其他浏览方式进行材料检索,最后再通过建筑领域技术人员对相关材料进行人工识别并提取相关材料的报价信息,完成清单材料匹配工作的清单材料匹配方法,本实施例提供的目标材料的匹配装置通过对实体识别模型对材料主体信息进行实体识别,通过预设匹配方法对属性描述信息进行提取,无需人工进行信息提取和人工检索匹配,节省了人力资源,提高了清单材料的匹配效率。
作为一个可选的实施方式,上述计算模块22,包括:
第一统计子模块,用于统计各个属性值和材料主体信息在材料数据中的第一出现次数,根据材料数据的词汇量和第一出现次数,计算得到词频值。详细内容参见上述实施例对应步骤S121的相关描述,此处不再赘述。
第二统计子模块,用于将材料主体信息与各个属性值分别进行组合,分别统计材料主体信息在材料数据中的第二出现次数和材料主体信息与各个属性值在材料数据中的第三出现次数,计算得到逆文本频率值。详细内容参见上述实施例对应步骤S122的相关描述,此处不再赘述。
计算子模块,用于根据词频值和逆文本频率值,计算得到目标材料对应的权重值。详细内容参见上述实施例对应步骤S123的相关描述,此处不再赘述。
作为一个可选的实施方式,上述构造模块23,包括:
生成子模块,用于以目标属性描述信息与权重值为过滤条件,根据材料主体信息及权重值对目标属性描述信息中的属性值进行加权,生成检索目标材料的查询语句。详细内容参见上述实施例的相关描述,此处不再赘述。
实施例3
本发明实施例还提供了一种计算机设备,如图5所示,该设备包括处理器31和存储器32,其中处理器31和存储器32可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器31可以为中央处理器(Central Processing Unit,CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、图形处理器(Graphics Processing Unit,GPU)、嵌入式神经网络处理器(Neural-network ProcessingUnit,NPU)或者其他专用的深度学习协处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的概念图谱的生成方法对应的程序指令/模块(如图4所示的获取模块21、计算模块22、构造模块23和匹配模块24)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的目标材料匹配方法。
存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器31所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器32中,当被所述处理器31执行时,执行如图1-图3所示实施例中的目标材料匹配方法。
通过获取目标材料的文本数据,根据文本数据确定目标材料对应材料主体信息和目标属性描述信息,根据目标属性描述信息,计算目标材料对应的权重值,根据材料主体信息和权重值,构造查询语句,根据查询语句,对材料数据进行检索获得目标材料对应的目标材料数据。通过识别材料主体信息避免了目标材料描述不统一而导致的匹配差异,计算材料主体信息与目标属性描述信息之间的权重值,按照权重值构建查询语句,满足了用户对不同目标材料匹配需求,提高了目标材料的匹配准确性。
上述计算机设备具体细节可以对应参阅图1至图4所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本发明实施例还提供一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的目标材料匹配方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种目标材料匹配方法,其特征在于,包括:
获取目标材料的文本数据,根据所述文本数据确定材料主体信息和目标属性描述信息;
根据所述目标属性描述信息,计算所述目标材料对应的权重值;
根据所述材料主体信息和所述权重值,构造查询语句;
根据所述查询语句,对材料数据进行检索获得所述目标材料对应的目标材料数据。
2.根据权利要求1所述的方法,其特征在于,所述获取目标材料的文本数据,根据所述文本数据确定材料主体信息,包括:
获取所述目标材料的材料名称,采用实体识别模型对所述材料名称中的材料主体进行识别,确定所述目标材料的材料主体信息。
3.根据权利要求2所述的方法,其特征在于,所述获取目标材料的文本数据,根据所述文本数据确定目标属性描述信息,包括:
基于预设匹配方法,识别所述目标材料对应的所述文本数据中的多个属性项,获得多个所述属性项对应的多个属性值;
将多个所述属性值拼接成字符串,对所述字符串进行分词,得到所述目标材料对应的分词结果,作为属性描述信息;
根据所述属性描述信息和所述材料主体信息,确定所述目标材料对应的目标属性描述信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述属性描述信息和所述材料主体信息,确定所述目标材料对应的目标属性描述信息,包括:
根据所述目标材料的材料名称及所述目标材料的材料主体信息,确定目标材料的描述性词汇;
根据所述目标材料的描述性词汇及所述属性描述信息的去重结果,确定所述目标属性描述信息。
5.根据权利要求3所述的方法,其特征在于,所述根据所述目标属性描述信息,计算所述目标材料对应的权重值,包括:
统计各个所述属性值和所述材料主体信息在材料数据中的第一出现次数,根据所述材料数据的词汇量和所述第一出现次数,计算得到词频值;
将所述材料主体信息与各个所述属性值分别进行组合,分别统计所述材料主体信息在所述材料数据中的第二出现次数和所述材料主体信息与各个所述属性值在所述材料数据中的第三出现次数,计算得到逆文本频率值;
根据所述词频值和所述逆文本频率值,计算得到所述目标材料对应的权重值。
6.根据所述权利要求5所述的方法,其特征在于,所述根据所述材料主体信息和所述权重值,构造查询语句,包括:
以所述目标属性描述信息与所述权重值为过滤条件,根据所述材料主体信息及权重值对目标属性描述信息中的所述属性值进行加权,生成检索所述目标材料的查询语句。
7.一种目标材料匹配装置,其特征在于,包括:
获取模块,用于获取目标材料的文本数据,根据所述文本数据确定材料主体信息和目标属性描述信息;
计算模块,用于根据所述目标属性描述信息,计算所述目标材料对应的权重值;
构造模块,用于根据所述材料主体信息和所述权重值,构造查询语句;
匹配模块,用于根据所述查询语句,对材料数据进行检索获得所述目标材料对应的目标材料数据。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,包括:
第一确定子模块,用于获取所述目标材料的材料名称,采用实体识别模型对所述材料名称中的材料主体进行识别,确定所述目标材料的材料主体信息;
识别子模块,用于基于预设匹配方法,识别所述目标材料对应的所述文本数据中的多个属性项,获得多个所述属性项对应的多个属性值;
划分子模块,用于将多个所述属性值拼接成字符串,对所述字符串进行分词,得到所述目标材料对应的分词结果,作为属性描述信息;
第二确定子模块,用于根据所述属性描述信息和所述材料主体信息,确定所述目标材料对应的目标属性描述信息。
9.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-6中任一项所述的目标材料匹配方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的目标材料匹配方法。
CN202010531575.1A 2020-06-11 2020-06-11 一种目标材料匹配方法、装置、设备及可读存储介质 Active CN111737428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010531575.1A CN111737428B (zh) 2020-06-11 2020-06-11 一种目标材料匹配方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010531575.1A CN111737428B (zh) 2020-06-11 2020-06-11 一种目标材料匹配方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111737428A true CN111737428A (zh) 2020-10-02
CN111737428B CN111737428B (zh) 2024-03-19

Family

ID=72650147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010531575.1A Active CN111737428B (zh) 2020-06-11 2020-06-11 一种目标材料匹配方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111737428B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224580A1 (en) * 2005-03-31 2006-10-05 Quiroga Martin A Natural language based search engine and methods of use therefor
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
US20160063093A1 (en) * 2014-08-27 2016-03-03 Facebook, Inc. Keyword Search Queries on Online Social Networks
KR20180129001A (ko) * 2017-05-24 2018-12-05 한국과학기술원 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
US20180365257A1 (en) * 2017-06-19 2018-12-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatu for querying
CN110287209A (zh) * 2019-06-10 2019-09-27 北京百度网讯科技有限公司 问答处理方法、装置、设备和存储介质
CN110717009A (zh) * 2019-09-29 2020-01-21 平安直通咨询有限公司上海分公司 一种法律咨询报告的生成方法及设备
CN111241851A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 语义相似度确定方法、装置及处理设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224580A1 (en) * 2005-03-31 2006-10-05 Quiroga Martin A Natural language based search engine and methods of use therefor
CN103927358A (zh) * 2014-04-15 2014-07-16 清华大学 文本检索方法及系统
US20160063093A1 (en) * 2014-08-27 2016-03-03 Facebook, Inc. Keyword Search Queries on Online Social Networks
KR20180129001A (ko) * 2017-05-24 2018-12-05 한국과학기술원 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
US20180365257A1 (en) * 2017-06-19 2018-12-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatu for querying
CN110287209A (zh) * 2019-06-10 2019-09-27 北京百度网讯科技有限公司 问答处理方法、装置、设备和存储介质
CN110717009A (zh) * 2019-09-29 2020-01-21 平安直通咨询有限公司上海分公司 一种法律咨询报告的生成方法及设备
CN111241851A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 语义相似度确定方法、装置及处理设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张书瑜;张定祥;王荣彬;季宏伟;: "多源异构土地基础数据一体化管理检索方法研究", 浙江大学学报(理学版), no. 05 *
李青山;王俊;褚华;季陶然;: "基于Agent的智能化元搜索引擎个性化机制", 中国科学:信息科学, no. 05 *

Also Published As

Publication number Publication date
CN111737428B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US9117006B2 (en) Recommending keywords
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
US8332434B2 (en) Method and system for finding appropriate semantic web ontology terms from words
US20120265787A1 (en) Identifying query formulation suggestions for low-match queries
US9799040B2 (en) Method and apparatus for computer assisted innovation
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
CN113112164A (zh) 基于知识图谱的变压器故障诊断方法、装置及电子设备
US20190243861A1 (en) Systems and methods for domain inventory index generation from disparate sets
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN112100396A (zh) 一种数据处理方法和装置
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN114637760A (zh) 一种智能问答方法及系统
CN108810640B (zh) 一种电视节目的推荐方法
CN111737428A (zh) 一种目标材料匹配方法、装置、设备及可读存储介质
CN115827988A (zh) 一种自媒体内容热度预测方法
US20230143777A1 (en) Semantics-aware hybrid encoder for improved related conversations
CN112800314B (zh) 搜索引擎询问自动补全的方法、系统、存储介质及设备
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
CN114691845A (zh) 语义搜索方法、装置、电子设备、存储介质及产品
CN114661890A (zh) 一种知识推荐方法、装置、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant