CN110442685A - 建筑专业词库的数据扩充方法、装置、设备及存储介质 - Google Patents

建筑专业词库的数据扩充方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110442685A
CN110442685A CN201910749389.2A CN201910749389A CN110442685A CN 110442685 A CN110442685 A CN 110442685A CN 201910749389 A CN201910749389 A CN 201910749389A CN 110442685 A CN110442685 A CN 110442685A
Authority
CN
China
Prior art keywords
word
building
neologisms
dictionary
architectural discipline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910749389.2A
Other languages
English (en)
Inventor
何楠
李军
陈飞军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Tea Science And Information Technology Ltd By Share Ltd
Original Assignee
Hangzhou Tea Science And Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Tea Science And Information Technology Ltd By Share Ltd filed Critical Hangzhou Tea Science And Information Technology Ltd By Share Ltd
Priority to CN201910749389.2A priority Critical patent/CN110442685A/zh
Publication of CN110442685A publication Critical patent/CN110442685A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Abstract

本发明实施例公开了一种建筑专业词库的数据扩充方法、装置、设备及计算机可读存储介质。其中,方法包括以现有建筑专业词库为参考基准对建筑文档进行分词生成初始字符集,利用N‑gram窗格滑动扫描初始字符集,并统计计算窗格内字符集中各字符构成建筑词语的词频信息;基于词频信息计算各建筑词语的词内聚合度比值和TF‑IDF值,并根据左右临接词的信息熵确定各建筑词语的词间组合度值;利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成用于扩充建筑专业词库的建筑新词集,该模型为基于多个满足新词条件的建筑用词的词内聚合度比值、词间组合度值和TF‑IDF值生成。本申请实现有效、快速、准确地更新建筑专业词库,有利于提高建筑新词的识别效率。

Description

建筑专业词库的数据扩充方法、装置、设备及存储介质
技术领域
本发明实施例涉及建筑技术领域,特别是涉及一种建筑专业词库的数据扩充方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机视觉技术的快速发展,建筑行业和计算机视觉技术的结合也越来越紧密,例如预先展示建筑物建成后的三维成果图或者是使用VR技术展示装修效果和装修风格的建筑内部空间,使用户可以真实的感觉装修后在该建筑物的生活状态。
计算机视觉技术首先需要获取建筑项目的基本信息,从一系列建筑文档中获取关键的建筑词语,然后根据获取到的建筑用户结合具体场景进行相应方案设计。可见,准确、快速读取文档中的建筑词语,具有很重要的意义。随着建筑行业的多元化发展,建筑行业的专业用词也在不断增长,为了快速、准确从文档中的读取建筑词语,需要实时更新建筑专业词库。如果只是依赖人工将新出现的建筑词语添加至已有的建筑词库中,显然,不仅耗费大量时间,人工成本较高,还存在人工处理易错的弊端。
发明内容
本公开实施例提供了一种建筑专业词库的数据扩充方法、装置、设备及计算机可读存储介质,实现有效、快速、准确地对建筑专业词库进行更新,有利于提高建筑新词的识别效率。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种建筑专业词库的数据扩充方法,包括:
基于建筑专业词库对待检索文档进行分词,生成初始字符集;
利用N-gram窗格滑动扫描所述初始字符集,并统计计算窗格内所述初始字符集的各字符构成建筑词语的词频信息;
基于所述词频信息计算每个建筑词语的词内聚合度比值和TF-IDF值,并根据当前建筑词语的左右临接词的信息熵确定各建筑词语的词间组合度值;
利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集,以作为扩充所述建筑专业词库的新词数据;
其中,所述新词选择模型为基于多个满足新词条件的建筑词语的词内聚合度比值、词间组合度值和TF-IDF值生成。
可选的,所述新词选择模型的训练过程包括:
分别根据多个满足所述新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-ID值拟合得到词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值;所述新词选择模型用于选择满足不小于所述词内聚合度比值阈值和所述TF-IDF参数阈值、且处于所述词间组合度参数范围条件的建筑词语作为建筑新词;
利用准确率、召回率和F值组合的模型评价标准对所述词内聚合度比值阈值、所述词间组合度参数范围和所述TF-IDF参数阈值进行调整,直至所述新词选择模型符合所述模型评价标准。
可选的,所述词内聚合度比值根据P(ab)/(P(a)*P(b))计算得到,所述TF-IDF值根据计算得到,所述词间组合度值为当前建筑词语的左右临接词的信息熵中的较大值;
式中,P(a)为所述初始字符集中a字符的频率,P(b)为所述初始字符集中b字符的频率,P(ab)为a字符和b字符组合为的建筑词语的频率;TF为目标建筑词语在文档中出现的频率,n为文档总数,a为包含所述目标建筑词语的文档总数。
可选的,所述基于建筑专业词库对待检索文档进行分词包括:
读取所述待检索文档数据,并对所述待检索文档数据进行去停用词处理,得到初始数据集;
基于所述建筑专业词库,利用结巴分词对所述初始数据集进行分词处理。
可选的,所述利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集之后,还包括:
判断所述建筑新词集中是否存在所述建筑专业词库中包含的建筑词语;
若是,则删除与所述建筑专业词库中的建筑词语相同的建筑新词,生成优选建筑新词集;
将所述优选建筑新词集中的建筑新词进行展示,以用于人工校验建筑新词;
根据人工反馈的建筑新词信息结果确定最优建筑新词集,并将所述最优建筑新词集发送至所述建筑专业词库。
可选的,所述根据人工反馈的建筑新词信息结果确定最优建筑新词集之后,还包括:
判断所述最优建筑新词集包含的建筑新词总数和所述建筑新词集中包含建筑新词总数的比值是否超过预设参数调整阈值;
若是,则调整所述新词选择模型的各参数,直至所述最优建筑新词集包含的建筑新词总数和所述建筑新词集中包含建筑新词总数的比值没有超过所述参数调整阈值。
本发明实施例另一方面提供了一种建筑专业词库的数据扩充装置,包括:
分词模块,用于基于建筑专业词库对待检索文档进行分词,生成初始字符集;
词频信息统计模块,用于利用N-gram窗格滑动扫描所述初始字符集,并统计计算窗格内所述初始字符集的各字符构成建筑词语的词频信息;
参数计算模块,用于基于所述词频信息计算每个建筑词语的词内聚合度比值和TF-IDF值,并根据当前建筑词语的左右临接词的信息熵确定各建筑词语的词间组合度值;
建筑新词确定模块,用于利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集,以作为扩充所述建筑专业词库的新词数据;其中,所述新词选择模型为基于多个满足新词条件的建筑词语的词内聚合度比值、词间组合度值和TF-IDF值生成。
可选的,所述建筑新词确定模块包括模型构建子模块,所述模型构建子模块包括:
阈值拟合单元,用于分别根据多个满足所述新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-ID值拟合得到词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值;所述新词选择模型用于选择满足不小于所述词内聚合度比值阈值和所述TF-IDF参数阈值、且处于所述词间组合度参数范围条件的建筑词语作为建筑新词;
参数调整单元,用于利用准确率、召回率和F值组合的模型评价标准对所述词内聚合度比值阈值、所述词间组合度参数范围和所述TF-IDF参数阈值进行调整,直至所述新词选择模型符合所述模型评价标准。
本发明实施例还提供了一种建筑专业词库的数据扩充设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述建筑专业词库的数据扩充方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有建筑专业词库的数据扩充程序,所述建筑专业词库的数据扩充程序被处理器执行时实现如前任一项所述建筑专业词库的数据扩充方法的步骤。
本申请提供的技术方案的优点在于,利用已有建筑专业词库作为参考标准对文档进行分词,将得到的各分词进行组合,得到多个建筑词语,从这些建筑词语中将同时满足词内聚合度比值、词间组合度值和TF-IDF值条件的建筑词语选择出来作为建筑新词,填充至建筑专业词库,实现有效、快速、准确地对建筑专业词库进行更新,有利于提高建筑新词的识别效率,从而有利于快速、准确地检索文档中的建筑词语。
此外,本发明实施例还针对建筑专业词库的数据扩充方法提供了相应的实现装置、设备及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置、设备及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种建筑专业词库的数据扩充方法的流程示意图;
图2为本发明实施例提供的另一种建筑专业词库的数据扩充方法的流程示意图;
图3为本发明实施例提供的再一种建筑专业词库的数据扩充方法的流程示意图;
图4为本发明实施例提供的建筑专业词库的数据扩充装置的一种具体实施方式结构图;
图5为本发明实施例提供的建筑专业词库的数据扩充装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种建筑专业词库的数据扩充方法的流程示意图,本发明实施例可包括以下内容:
S101:基于建筑专业词库对待检索文档进行分词,生成初始字符集。
可以理解的是,建筑专业词库可为任何一种包含现有已积累的建筑词语的数据库,建筑词语类型可包括构件类型,例如基础梁、砼外墙和构件对应的属性信息,例如砼强度,工程标高、墙厚。由于本申请依赖计算机来实现的,建筑专业词库中的所有数据需要预先处理为计算机可识别和处理的结构形式,例如可利用python和sqlite读取所有的数据到data_set.txt中,作为后续分词的参考标准。待检索文档可为任何一种包含大量或少量建筑词语的文档,例如土建钢筋算量软件中整理的各个地区的定额库数据和清单库数据。同样的,待检索文档也需要预先处理为计算机可识别和处理的结构形式。为了提高分词效率和准确度,还可在读取待检索文档数据,对待检索文档数据进行去停用词处理,得到初始数据集;然后基于建筑专业词库,可利用结巴分词对初始数据集进行分词处理。
其中,可利用结巴分词对待检索文档进行分词处理,当然,也可采用其他分词算法实现对文档的分词处理。
S102:利用N-gram窗格滑动扫描初始字符集,并统计计算窗格内初始字符集的各字符构成建筑词语的词频信息。
在本申请中,N-gram窗格的参数可根据实际需要进行确定,例如根据建筑专业的特异性,可采用N=3/4/5长度的N-gram窗格滑动扫描字符集,本申请对此不作任何处理。可以理解的是,词语的上下文的语境语义越多,词语的=相关信息越多,这个词语的含义就会表达的越明确。如果有一个m个词语组成的句子,则概率P(w1,w2,…,wm)=P(w1)P(w2|w1)P(w3|w1,w2)…P(wm|w1,…,wm-1)。因此关联的词语m越多,上下文信息越丰富,则计算越复杂。可利用马尔科夫链的假设,当前词仅仅与他最近的m个有限词有关,可以大幅度降低计算的复杂度。即:
P(ωi1,…,ωi-1)=P(ωii-n+1,…,ωi-1)。
当本申请选用N=3/4/5的N-gram窗格,也即一个三元模型,上述公式可为:
S103:基于词频信息计算每个建筑词语的词内聚合度比值和TF-IDF值,并根据当前建筑词语的左右临接词的信息熵确定各建筑词语的词间组合度值。
在本申请中,词内聚合度用于衡量由字符a、b组成建筑词语的出现的频率和字符a、b出现的频率,此处的频率为相应词频和该词总个数的商值。词内聚合度比值可根据P(ab)/(P(a)*P(b))计算得到,P(a)为初始字符集中a字符的频率,P(b)为初始字符集中b字符的频率,P(ab)为a字符和b字符组合为的建筑词语的频率。目标建筑词语的TF-IDF值可根据计算得到,TF为目标建筑词语在文档中出现的频率,n为文档总数,a为包含目标建筑词语的文档总数。可选的,可采用信息熵量化表征滑动窗格选取的左右临接词组合的丰富程度,也就是说,各字符构成的建筑词语的词间组合度值为该建筑词语的左右临接词的信息熵较大者的值。当然,建筑词语的词内聚合度比值、TF-IDF值和词间组合度值也可采用其他方式计算得到,本领域技术人员可根据实际应用场景进行确定,这均不影响本申请的实现。
S104:利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集,以作为扩充建筑专业词库的新词数据。
在本申请中,新词选择模型用于初始字符集中各字符组合为的建筑词语集群中选取最有可能为建筑新词的建筑词语。新词选择模型可为基于多个满足新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-IDF值生成。满足新词条件的建筑词语为建筑新词,新词条件可为由词内聚合度条件、词间聚合条件和TF-IDF条件构成的组合。词内聚合度条件为建筑词语的词内聚合度比值不小于预设词内聚合度比值阈值,词间聚合条件为建筑词语的词间组合度值位于预设词间组合度参数范围内,TF-IDF条件为建筑词语的TF-ID值不小于预设TF-IDF参数阈值。本领域技术人员可根据实际应用场景和用户需求结合自身经验确定词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值,还可基于大量历史数据拟合得到词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值。
可以理解的是,由字符a、b组成建筑词语的出现的频率和字符a、b出现的频率足够高,则由字符a、b组成建筑词语为建筑新词的概率越大,此处的建筑新词为不属于S101中建筑词库中的建筑词语。可选的,由字符a、b组成的建筑词语为建筑新词需要满足的词内聚合条件为P(ab)远大于P(a)*P(b)。在一种具体的实施方式中,若由字符a、b组成的建筑词语的频率和字符a、b的频率满足P(ab)/(P(a)*P(b))远大于10,则由字符a、b组成的建筑词语满足词内聚合条件。一种实施方式中,词间组合度参数范围可设置为0.4~0.8,TF-IDF参数阈值的初始值可设置为0.5。当然,在新词选择模型训练完成后,词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值这些参数也可进行实时进行调整,以使新词选择模型的准确度更高。
需要说明的是,本申请可以为建筑行业或其他任何一种行业中某种特定类型的数据词库的生成方法,只要具有一部分已积累的该类型的词语即可,然后按照S101-S104方法通过对相应的现有文档数据进行处理,便可在已积累词语的基础上不断丰富扩充。举例来说,若待检索文档为定额数据或清单数据,且已积累的词语为定额数据或清单数据中的一些常用建筑词语,已积累的词语即为S101中的建筑专业词库,则按照S104生成的建筑新词集中的建筑词语均为定额数据或清单数据,建筑新词集和已积累的建筑词语构成的数据库可作为建筑行业中定额清单的专业词库。
在本发明实施例提供的技术方案中,利用已有建筑专业词库作为参考标准对文档进行分词,将得到的各分词进行组合,得到多个建筑词语,从这些建筑词语中将同时满足词内聚合度比值、词间组合度值和TF-IDF值条件的建筑词语选择出来作为建筑新词,填充至建筑专业词库,实现有效、快速、准确地对建筑专业词库进行更新,有利于提高建筑新词的识别效率,从而有利于快速、准确地检索文档中的建筑词语。
作为一种优选的实施方式,新词选择模型的训练过程可包括:
分别根据多个满足新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-ID值拟合得到词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值。新词选择模型可用于选择满足不小于词内聚合度比值阈值和TF-IDF参数阈值、且处于词间组合度参数范围条件的建筑词语作为建筑新词。
利用准确率、召回率和F值组合的模型评价标准对词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值进行调整,直至新词选择模型符合模型评价标准。
本发明实施例可采用任何一种拟合算法,本申请对此不作任何限定。拟合聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值过程中使用的满足新词条件的建筑用词的个数越多,得到的新词选择模型的新词识别准确度越高。其中,准确率为真正例/(真正例+假正例),召回率为真正例/(真正例+假反例),F值为2*(准确率*召回率)/(准确率+召回率),根据实际应用场景和用户的精度需求,确定准确率阈值、召回率阈值和F阈值,当利用新词选择模型选择出来的建筑新词的准确率、召回率和F均不小于预设设置的准确率阈值、召回率阈值和F阈值,则认为训练得到的新词选择模型符合模型评价标准。
可以理解的是,S104步骤中生成的建筑新词集中包含的建筑新词可能并未均为建筑新词,为了保证扩充至建筑专业词库中的建筑词语为建筑新词,避免建筑专业词库重复出现同一个词,基于上述实施例,请参见图2,图2为本发明实施例提供的另一种建筑专业词库的数据扩充方法的流程示意图,具体的可包括以下内容:
S105:判断建筑新词集中是否存在建筑专业词库中包含的建筑词语,若是,则执行S106。
在本实施例中,可采用任何一种数据库匹配算法实现为建筑新词集中的每个建筑词语在建筑专业词库中匹配相同的建筑词语。
S106:删除与建筑专业词库中的建筑词语相同的建筑新词,生成优选建筑新词集。建筑新词集中删除与建筑专业词库中的建筑词语相同的建筑新词剩余的建筑新词构成优选建筑新词集。
S107:将优选建筑新词集中的建筑新词进行展示,以用于人工校验建筑新词。
S108:根据人工反馈的建筑新词信息结果确定最优建筑新词集,并将最优建筑新词集发送至建筑专业词库。向人工展示优选建筑新词集中的每个建筑新词,人工会根据自身经验判断所展示的建筑新词是否为正确的建筑新词,并向系统反馈是否为建筑信息的信息,系统将人工反馈信息中不属于建筑新词的词语从优选建筑新词集去除,剩余的建筑新词构成最优建筑新词集。
本发明实施例通过已积累的建筑名词和人工识别的方式对S104生成的建筑新词集进行了筛选,有利于保证扩充至建筑专业词库的建筑词语为建筑新词,丰富了建筑专业词库内容,且有效避免建筑专业词典中相同建筑词语的重复出现。
若存在多个建筑词语的人工判定与S104的判定结果有悖,认为新词选择模型的参数阈值设置是不合理的,可进一步调整参数阈值,从而达到正确的结果。基于上述实施例,请参见图3,图3为本发明实施例提供的再一种建筑专业词库的数据扩充方法的流程示意图,具体的可包括以下内容:
S109:判断最优建筑新词集包含的建筑新词总数和建筑新词集中包含建筑新词总数的比值是否超过预设参数调整阈值;若是,则执行S110。
S110:调整新词选择模型的各参数,直至最优建筑新词集包含的建筑新词总数和建筑新词集中包含建筑新词总数的比值没有超过参数调整阈值。
其中,参数调整阈值可根据实际应用场景进行确定,例如建筑新词集中的20%的建筑词语经S107的人工判定不为建筑词语,则认为新词选择模型中的各参数不准确,需要重新调整,直至S107的人工判定建筑新词集中不为建筑词语的占比不超过20%。
本发明实施例通过及时对新词选择模型的参数调整,有利于保证新词选择模型识别新词的准确度。
本发明实施例还针对建筑专业词库的数据扩充方法提供了相应的实现装置,进一步使得所述方法更具有实用性。下面对本发明实施例提供的建筑专业词库的数据扩充装置进行介绍,下文描述的建筑专业词库的数据扩充装置与上文描述的建筑专业词库的数据扩充方法可相互对应参照。参见图4,图4为本发明实施例提供的建筑专业词库的数据扩充装置在一种具体实施方式下的结构图,该装置可包括:
分词模块401,用于基于建筑专业词库对待检索文档进行分词,生成初始字符集。
词频信息统计模块402,用于利用N-gram窗格滑动扫描初始字符集,并统计计算窗格内初始字符集的各字符构成建筑词语的词频信息。
参数计算模块403,用于基于词频信息计算每个建筑词语的词内聚合度比值和TF-IDF值,并根据当前建筑词语的左右临接词的信息熵确定各建筑词语的词间组合度值。
建筑新词确定模块404,用于利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集,以作为扩充建筑专业词库的新词数据;其中,新词选择模型为基于多个满足新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-IDF值生成。
可选的,在本实施例的一些实施方式中,所述建筑新词确定模块404可包括模型构建子模块,所述模型构建子模块具体可包括:
阈值拟合单元,用于分别根据多个满足新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-ID值拟合得到词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值;新词选择模型用于选择满足不小于词内聚合度比值阈值和TF-IDF参数阈值、且处于词间组合度参数范围条件的建筑词语作为建筑新词;
参数调整单元,用于利用准确率、召回率和F值组合的模型评价标准对词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值进行调整,直至新词选择模型符合模型评价标准。
作为一种优选的实施方式,所述分词模块401还可包括:
去停用词处理子模块,用于读取待检索文档数据,并对待检索文档数据进行去停用词处理,得到初始数据集;
分词子模块,用于基于建筑专业词库,利用结巴分词对初始数据集进行分词处理。
可选的,在本实施例的另一些实施方式中,请参阅图5,所述装置例如还可以包括建筑新词集精简模块405,所述建筑新词集精简模块405具体可包括:
判断子模块,用于判断建筑新词集中是否存在建筑专业词库中包含的建筑词语;
第一精简子模块,用于若建筑新词集中存在建筑专业词库中包含的建筑词语,则删除与建筑专业词库中的建筑词语相同的建筑新词,生成优选建筑新词集;
人工校验子模块,用于将优选建筑新词集中的建筑新词进行展示,以用于人工校验建筑新词;
最优建筑新词集生成子模块,用于根据人工反馈的建筑新词信息结果确定最优建筑新词集,并将最优建筑新词集发送至建筑专业词库。
最后,在一种具体的实施方式中,所述装置例如还可包括模型参数调整模块406,所述模型参数调整子模块406可包括:
阈值条件判断子模块,用于判断最优建筑新词集包含的建筑新词总数和建筑新词集中包含建筑新词总数的比值是否超过预设参数调整阈值;
参数调整子模块,用于若最优建筑新词集包含的建筑新词总数和建筑新词集中包含建筑新词总数的比值超过预设参数调整阈值,则调整新词选择模型的各参数,直至最优建筑新词集包含的建筑新词总数和建筑新词集中包含建筑新词总数的比值没有超过参数调整阈值。
本发明实施例所述建筑专业词库的数据扩充装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例实现有效、快速、准确地对建筑专业词库进行更新,有利于提高建筑新词的识别效率。
本发明实施例还提供了一种建筑专业词库的数据扩充设备,具体可包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如上任意一实施例所述建筑专业词库的数据扩充方法的步骤。
本发明实施例所述建筑专业词库的数据扩充设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例实现有效、快速、准确地对建筑专业词库进行更新,有利于提高建筑新词的识别效率。
本发明实施例还提供了一种计算机可读存储介质,存储有建筑专业词库的数据扩充程序,所述建筑专业词库的数据扩充程序被处理器执行时如上任意一实施例所述建筑专业词库的数据扩充方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例实现有效、快速、准确地对建筑专业词库进行更新,有利于提高建筑新词的识别效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种建筑专业词库的数据扩充方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种建筑专业词库的数据扩充方法,其特征在于,包括:
基于建筑专业词库对待检索文档进行分词,生成初始字符集;
利用N-gram窗格滑动扫描所述初始字符集,并统计计算窗格内所述初始字符集的各字符构成建筑词语的词频信息;
基于所述词频信息计算每个建筑词语的词内聚合度比值和TF-IDF值,并根据当前建筑词语的左右临接词的信息熵确定各建筑词语的词间组合度值;
利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集,以作为扩充所述建筑专业词库的新词数据;
其中,所述新词选择模型为基于多个满足新词条件的建筑词语的词内聚合度比值、词间组合度值和TF-IDF值生成。
2.根据权利要求1所述的建筑专业词库的数据扩充方法,其特征在于,所述新词选择模型的训练过程包括:
分别根据多个满足所述新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-ID值拟合得到词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值;所述新词选择模型用于选择满足不小于所述词内聚合度比值阈值和所述TF-IDF参数阈值、且处于所述词间组合度参数范围条件的建筑词语作为建筑新词;
利用准确率、召回率和F值组合的模型评价标准对所述词内聚合度比值阈值、所述词间组合度参数范围和所述TF-IDF参数阈值进行调整,直至所述新词选择模型符合所述模型评价标准。
3.根据权利要求1所述的建筑专业词库的数据扩充方法,其特征在于,所述词内聚合度比值根据P(ab)/(P(a)*P(b))计算得到,所述TF-IDF值根据计算得到,所述词间组合度值为当前建筑词语的左右临接词的信息熵中的较大值;
式中,P(a)为所述初始字符集中a字符的频率,P(b)为所述初始字符集中b字符的频率,P(ab)为a字符和b字符组合的建筑词语的频率;TF为目标建筑词语在文档中出现的频率,n为文档总数,a为包含所述目标建筑词语的文档总数。
4.根据权利要求1所述的建筑专业词库的数据扩充方法,其特征在于,所述基于建筑专业词库对待检索文档进行分词包括:
读取所述待检索文档数据,并对所述待检索文档数据进行去停用词处理,得到初始数据集;
基于所述建筑专业词库,利用结巴分词对所述初始数据集进行分词处理。
5.根据权利要求1-4任意一项所述的建筑专业词库的数据扩充方法,其特征在于,所述利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集之后,还包括:
判断所述建筑新词集中是否存在所述建筑专业词库中包含的建筑词语;
若是,则删除与所述建筑专业词库中的建筑词语相同的建筑新词,生成优选建筑新词集;
将所述优选建筑新词集中的建筑新词进行展示,以用于人工校验建筑新词;
根据人工反馈的建筑新词信息结果确定最优建筑新词集,并将所述最优建筑新词集发送至所述建筑专业词库。
6.根据权利要求5所述的建筑专业词库的数据扩充方法,其特征在于,所述根据人工反馈的建筑新词信息结果确定最优建筑新词集之后,还包括:
判断所述最优建筑新词集包含的建筑新词总数和所述建筑新词集中包含建筑新词总数的比值是否超过预设参数调整阈值;
若是,则调整所述新词选择模型的各参数,直至所述最优建筑新词集包含的建筑新词总数和所述建筑新词集中包含建筑新词总数的比值没有超过所述参数调整阈值。
7.一种建筑专业词库的数据扩充装置,其特征在于,包括:
分词模块,用于基于建筑专业词库对待检索文档进行分词,生成初始字符集;
词频信息统计模块,用于利用N-gram窗格滑动扫描所述初始字符集,并统计计算窗格内所述初始字符集的各字符构成建筑词语的词频信息;
参数计算模块,用于基于所述词频信息计算每个建筑词语的词内聚合度比值和TF-IDF值,并根据当前建筑词语的左右临接词的信息熵确定各建筑词语的词间组合度值;
建筑新词确定模块,用于利用新词选择模型从各建筑词语中选取满足条件的建筑新词,生成建筑新词集,以作为扩充所述建筑专业词库的新词数据;其中,所述新词选择模型为基于多个满足新词条件的建筑词语的词内聚合度比值、词间组合度值和TF-IDF值生成。
8.根据权利要求7所述的建筑专业词库的数据扩充装置,其特征在于,所述建筑新词确定模块包括模型构建子模块,所述模型构建子模块包括:
阈值拟合单元,用于分别根据多个满足所述新词条件的建筑用词的词内聚合度比值、词间组合度值和TF-ID值拟合得到词内聚合度比值阈值、词间组合度参数范围和TF-IDF参数阈值;所述新词选择模型用于选择满足不小于所述词内聚合度比值阈值和所述TF-IDF参数阈值、且处于所述词间组合度参数范围条件的建筑词语作为建筑新词;
参数调整单元,用于利用准确率、召回率和F值组合的模型评价标准对所述词内聚合度比值阈值、所述词间组合度参数范围和所述TF-IDF参数阈值进行调整,直至所述新词选择模型符合所述模型评价标准。
9.一种建筑专业词库的数据扩充设备,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6任一项所述建筑专业词库的数据扩充方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有建筑专业词库的数据扩充程序,所述建筑专业词库的数据扩充程序被处理器执行时实现如权利要求1至6任一项所述建筑专业词库的数据扩充方法的步骤。
CN201910749389.2A 2019-08-14 2019-08-14 建筑专业词库的数据扩充方法、装置、设备及存储介质 Pending CN110442685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749389.2A CN110442685A (zh) 2019-08-14 2019-08-14 建筑专业词库的数据扩充方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749389.2A CN110442685A (zh) 2019-08-14 2019-08-14 建筑专业词库的数据扩充方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110442685A true CN110442685A (zh) 2019-11-12

Family

ID=68435466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749389.2A Pending CN110442685A (zh) 2019-08-14 2019-08-14 建筑专业词库的数据扩充方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110442685A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535549A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 测试数据的扩充方法、装置、设备及计算机可读存储介质
CN116383346A (zh) * 2023-06-06 2023-07-04 荣耀终端有限公司 检索理解方法和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04195253A (ja) * 1990-11-28 1992-07-15 Internatl Business Mach Corp <Ibm> 連文節仮名漢字変換方法および装置
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04195253A (ja) * 1990-11-28 1992-07-15 Internatl Business Mach Corp <Ibm> 連文節仮名漢字変換方法および装置
CN102708147A (zh) * 2012-03-26 2012-10-03 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN108268440A (zh) * 2017-01-04 2018-07-10 普天信息技术有限公司 一种未登录词识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535549A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 测试数据的扩充方法、装置、设备及计算机可读存储介质
CN116383346A (zh) * 2023-06-06 2023-07-04 荣耀终端有限公司 检索理解方法和电子设备
CN116383346B (zh) * 2023-06-06 2023-10-20 荣耀终端有限公司 检索理解方法和电子设备

Similar Documents

Publication Publication Date Title
US5761538A (en) Method for performing string matching
Blokland et al. Pion pole contribution to hadronic light-by-light scattering and muon anomalous magnetic moment
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN106708799B (zh) 一种文本纠错方法、装置及终端
CN102902362B (zh) 文字输入方法及系统
CN110647505B (zh) 一种基于指纹特征的计算机辅助密点标注方法
CN110442685A (zh) 建筑专业词库的数据扩充方法、装置、设备及存储介质
CN110473067A (zh) 构件的造价标准文件确定方法、装置、设备及存储介质
CN108875040A (zh) 词典更新方法及计算机可读存储介质
CN103514230B (zh) 一种用于根据语料序列训练语言模型的方法与设备
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN106407781A (zh) 一种数据处理系统
CN109165326A (zh) 一种字符串匹配方法及装置
CN109522397A (zh) 基于语义解析的信息处理方法及装置
US20030182293A1 (en) Method for generating quantiles from data streams
CN110493612A (zh) 弹幕信息的处理方法、服务器及计算机可读存储介质
CN110674251A (zh) 一种基于语义信息的计算机辅助密点标注方法
US20160210372A1 (en) Method and system for obtaining knowledge point implicit relationship
Kersey On the problems of smoothing and near-interpolation
JP2006201278A (ja) 楽曲の拍節構造の自動分析方法および装置、ならびにプログラムおよびこのプログラムを記録した記録媒体
CN111026933B (zh) 一种内容推荐方法、装置、电子设备及存储介质
CN113779933A (zh) 商品的编码方法、电子设备及计算机可读存储介质
CN113468186A (zh) 数据表主键关联方法、装置、计算机设备及可读存储介质
CN112991529A (zh) 一种利用三角形进行地图网格化的划分算法
CN110334281A (zh) 一种结合用户行为的图书推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112

RJ01 Rejection of invention patent application after publication