CN109308311A - 一种多源异构数据融合系统 - Google Patents
一种多源异构数据融合系统 Download PDFInfo
- Publication number
- CN109308311A CN109308311A CN201811032670.6A CN201811032670A CN109308311A CN 109308311 A CN109308311 A CN 109308311A CN 201811032670 A CN201811032670 A CN 201811032670A CN 109308311 A CN109308311 A CN 109308311A
- Authority
- CN
- China
- Prior art keywords
- matching
- module
- short text
- data
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种多源异构数据融合系统,包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块,所述数据获取模块用于从不同网站获取商品的多源异构数据,所述数据预处理模块用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块用于对短文本进行匹配,所述融合模块基于文本匹配结果对数据进行融合,所述评价模块用于对数据融合效果进行评价。本发明的有益效果为:提供了一种多源异构数据融合系统,通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,有助于建立完整性、准确性和一致性强的知识库。
Description
技术领域
本发明涉及数据融合技术领域,具体涉及一种多源异构数据融合系统。
背景技术
多源数据融合技术指利用相关手段将调查、分析获取到的所有信息全部综合到一起,并对信息进行统一的评价,最后得到统一的信息的技术。该技术的目的是将各种不同的数据信息进行综合,吸取不同数据源的特点,然后从中提取出统一的,比单一数据更好、更丰富的信息。
目前,互联网垂直网站上行业数据丰富,数据一般是经过人工抽取和整理,知识较为密集,信息量大,数据基础好。而且每个行业都有很多同类同质数据,例如,在电商领域,每个垂直网站的商品或者产品具有描述一般属性列表形式出现,商品具有一定的相似和交叉重合性,如果直接从文本中抽取实体的属性和关系难度非常高,准确性非常低,基本无法应用。
发明内容
针对上述问题,本发明旨在提供一种多源异构数据融合系统。
本发明的目的采用以下技术方案来实现:
提供了一种多源异构数据融合系统,包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块,所述数据获取模块用于从不同网站获取商品的多源异构数据,所述数据预处理模块用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块用于对短文本进行匹配,所述融合模块基于文本匹配结果对数据进行融合,所述评价模块用于对数据融合效果进行评价。
本发明的有益效果为:提供了一种多源异构数据融合系统,通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,有助于建立完整性、准确性和一致性强的知识库。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明的结构示意图;
附图标记:
数据获取模块1、数据预处理模块2、匹配模块3、融合模块4、评价模块5。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种多源异构数据融合系统,包括数据获取模块1、数据预处理模块2、匹配模块3、融合模块4和评价模块5,所述数据获取模块1用于从不同网站获取商品的多源异构数据,所述数据预处理模块2用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块3用于对短文本进行匹配,所述融合模块4基于文本匹配结果对数据进行融合,所述评价模块5用于对数据融合效果进行评价。
本实施例提供了一种多源异构数据融合系统,通过对数据进行预处理和文本匹配,实现了多源异构数据的融合,有助于建立完整性、准确性和一致性强的知识库。
优选的,所述匹配模块3包括第一匹配模块、第二匹配模块和第三匹配模块,所述第一匹配模块用于计算短文本的第一匹配因子,所述第二匹配模块用于计算短文本的第二匹配因子,所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配;
所述第一匹配模块用于计算短文本的第一匹配因子,具体是:对于两个待匹配的短文本A和B,采用下式计算短文本的第一匹配因子:在式子中,1表示短文本的第一匹配因子,c1和c2表示两个待匹配的短文本A和B包含的字符数,p表示匹配的字符数,h表示换位的数目,换位的数目等于不同顺序的匹配字符数的一半;所述第一匹配因子越大,表示待匹配文本的匹配程度越高。
本优选实施例第一匹配模块以字符作为基本单位,通过确定匹配字符和换位数目,实现了第一匹配因子的准确计算,为后续短文本匹配奠定了基础。
优选的,所述第二匹配模块用于计算短文本的第二匹配因子,具体是:对于两个待匹配的短文本A和B,将短文本看作词构成的向量,Ai和Bi分别表示短文本A和B中的第i个词,若待匹配短文本中的词的数量不同,则首先将向量维数较低的短文本进行增加词的操作,增加的词从预先设置的词库中随机挑选,使其维数与维数较高文本维数相同,采用下式计算短文本的第二匹配因子:在式子中,Z2表示短文本的第二匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈[0.8,1.2],用于修正增加词带来的误差;所述第二匹配因子越大,表示待匹配文本的匹配程度越高。
本优选实施例第二匹配模块以词作为基本单位,将短文本转化为向量,并将待匹配文本转化为维数相同的向量,实现了第二匹配因子的准确计算,为后续短文本匹配奠定了基础。
优选的,所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配,具体是:根据第一匹配因子和第二匹配因子计算短文本的匹配因子:在式子中,X表示短文本的匹配因子;设定匹配阈值X0,若X≥X0,则说明书短文本相匹配,若X<X0,则说明短文本不匹配。
本优选实施例第三匹配模块通过第一匹配因子和第二匹配因子计算短文本的匹配因子,同时考虑了短文本的词性相似性和语义相似性,提升了匹配准确性,为后续数据融合奠定了基础。
优选的,所述融合模块4基于文本匹配结果对数据进行融合,具体是:采集的商品名称、属性名称和属性值构成集合L={l1,l2,…,lm},m表示集合中元素的数目,根据匹配模块计算li和lj之间的匹配因子,i,j=1,2,…,m,根据匹配因子,生成匹配度矩阵:
在式子中,D表示匹配度矩阵,X(li,lj)表示li和lj之间的匹配因子,i,j=1,2,…,m;若匹配度矩阵中元素的值小于匹配阈值,则记为0,将匹配度大于匹配阈值的元素进行融合,对于大于匹配阈值的两个元素,随机选择一元素作为融合结果输出。
本优选实施例融合模块4根据商品名称、属性名称和属性值生成匹配度矩阵,并根据矩阵对数据进行融合,得到了准确的融合结果。
优选的,所述评价模块5用于对数据融合效果进行评价,具体是:对于商品名称、属性名称和属性值构成的集合L={l1,l2,…,lm},专家对集合L中的元素进行合并,并将合并结果输出;采用下式计算融合评价因子:在式子中,Y表示融合评价因子,r1表示所述融合模块融合的输出的融合结果中元素的个数,r2表示专家进行元素合并后的输出元素的个数;所述融合评价因子越大,表示融合效果越好。
本优选实施例评价模块5通过确定融合评价因子,综合考虑元素个数和专家的意见,实现了对融合结果的准确度量。
采用本发明多源异构数据融合系统进行商品数据融合,选取5个商品进行实验,分别为商品1、商品2、商品3、商品4、商品5,对数据融合速率和数据融合准确率进行统计,同现有技术相比,产生的有益效果如下表所示:
数据融合准确率提高 | 数据融合速率提高 | |
商品1 | 29% | 27% |
商品2 | 27% | 26% |
商品3 | 26% | 26% |
商品4 | 25% | 24% |
商品5 | 24% | 22% |
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解应当理解,可以以硬件、软件、固件、中间件、代码或其任何恰当组合来实现这里描述的实施例。对于硬件实现,处理器可以在一个或多个下列单元中实现:专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计用于实现这里所描述功能的其他电子单元或其组合。对于软件实现,实施例的部分或全部流程可以通过计算机程序来指令相关的硬件来完成。实现时,可以将上述程序存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。计算机可读介质可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (7)
1.一种多源异构数据融合系统,其特征在于,包括数据获取模块、数据预处理模块、匹配模块、融合模块和评价模块,所述数据获取模块用于从不同网站获取商品的多源异构数据,所述数据预处理模块用于对数据进行规范化处理,生成短文本,所述规范化处理包括分词和去除停用词,所述匹配模块用于对短文本进行匹配,所述融合模块基于文本匹配结果对数据进行融合,所述评价模块用于对数据融合效果进行评价。
2.根据权利要求1所述的多源异构数据融合系统,其特征在于,所述匹配模块包括第一匹配模块、第二匹配模块和第三匹配模块,所述第一匹配模块用于计算短文本的第一匹配因子,所述第二匹配模块用于计算短文本的第二匹配因子,所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配。
3.根据权利要求2所述的多源异构数据融合系统,其特征在于,所述第一匹配模块用于计算短文本的第一匹配因子,具体是:对于两个待匹配的短文本A和B,采用下式计算短文本的第一匹配因子:在式子中,Z1表示短文本的第一匹配因子,c1和c2表示两个待匹配的短文本A和B包含的字符数,p表示匹配的字符数,h表示换位的数目,换位的数目等于不同顺序的匹配字符数的一半;所述第一匹配因子越大,表示待匹配文本的匹配程度越高。
4.根据权利要求3所述的多源异构数据融合系统,其特征在于,所述第二匹配模块用于计算短文本的第二匹配因子,具体是:对于两个待匹配的短文本A和B,将短文本看作词构成的向量,Ai和Bi分别表示短文本A和B中的第i个词,若待匹配短文本中的词的数量不同,则首先将向量维数较低的短文本进行增加词的操作,增加的词从预先设置的词库中随机挑选,使其维数与维数较高文本维数相同,采用下式计算短文本的第二匹配因子: 在式子中,Z2表示短文本的第二匹配因子,n表示维数较高短文本向量的维数,σ表示修正因子,σ∈[0.8,1.2],用于修正增加词带来的误差;所述第二匹配因子越大,表示待匹配文本的匹配程度越高。
5.根据权利要求4所述的多源异构数据融合系统,其特征在于,所述第三匹配模块基于第一匹配因子和第二匹配因子对短文本进行匹配,具体是:根据第一匹配因子和第二匹配因子计算短文本的匹配因子:在式子中,X表示短文本的匹配因子;设定匹配阈值X0,若X≥X0,则说明书短文本相匹配,若X<X0,则说明短文本不匹配。
6.根据权利要求5所述的多源异构数据融合系统,其特征在于,所述融合模块基于文本匹配结果对数据进行融合,具体是:采集的商品名称、属性名称和属性值构成集合L={l1,l2,…,lm},m表示集合中元素的数目,根据匹配模块计算li和lj之间的匹配因子,i,j=1,2,…,m,根据匹配因子,生成匹配度矩阵:
在式子中,D表示匹配度矩阵,X(li,lj)表示li和lj之间的匹配因子,i,j=1,2,…,m。
7.根据权利要求6所述的多源异构数据融合系统,其特征在于,若匹配度矩阵中元素的值小于匹配阈值,则记为0,将匹配度大于匹配阈值的元素进行融合,对于大于匹配阈值的两个元素,随机选择一元素作为融合结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811032670.6A CN109308311A (zh) | 2018-09-05 | 2018-09-05 | 一种多源异构数据融合系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811032670.6A CN109308311A (zh) | 2018-09-05 | 2018-09-05 | 一种多源异构数据融合系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109308311A true CN109308311A (zh) | 2019-02-05 |
Family
ID=65224546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811032670.6A Withdrawn CN109308311A (zh) | 2018-09-05 | 2018-09-05 | 一种多源异构数据融合系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109308311A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110082A (zh) * | 2019-04-12 | 2019-08-09 | 黄红梅 | 多源异构数据融合优化方法 |
CN111767325A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 基于深度学习的多源数据深度融合方法 |
CN113836940A (zh) * | 2021-09-26 | 2021-12-24 | 中国南方电网有限责任公司 | 电力计量领域的知识融合方法、装置和计算机设备 |
CN113987113A (zh) * | 2021-06-25 | 2022-01-28 | 四川大学 | 一种多站点定名服务融合方法、装置、存储介质及服务器 |
-
2018
- 2018-09-05 CN CN201811032670.6A patent/CN109308311A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110082A (zh) * | 2019-04-12 | 2019-08-09 | 黄红梅 | 多源异构数据融合优化方法 |
CN111767325A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 基于深度学习的多源数据深度融合方法 |
CN113987113A (zh) * | 2021-06-25 | 2022-01-28 | 四川大学 | 一种多站点定名服务融合方法、装置、存储介质及服务器 |
CN113987113B (zh) * | 2021-06-25 | 2023-09-22 | 四川大学 | 一种多站点定名服务融合方法、装置、存储介质及服务器 |
CN113836940A (zh) * | 2021-09-26 | 2021-12-24 | 中国南方电网有限责任公司 | 电力计量领域的知识融合方法、装置和计算机设备 |
CN113836940B (zh) * | 2021-09-26 | 2024-04-12 | 南方电网数字电网研究院股份有限公司 | 电力计量领域的知识融合方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354170B2 (en) | Method and apparatus of establishing image search relevance prediction model, and image search method and apparatus | |
CN109308311A (zh) | 一种多源异构数据融合系统 | |
CN101694668B (zh) | 网页结构相似性确定方法及装置 | |
CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
CN105808526A (zh) | 商品短文本核心词提取方法和装置 | |
CN108269125B (zh) | 评论信息质量评估方法及系统、评论信息处理方法及系统 | |
CN110457486A (zh) | 基于知识图谱的人物实体对齐方法及装置 | |
CN108108426A (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN102033880A (zh) | 基于结构化数据集合的标注方法和装置 | |
CN112990035B (zh) | 一种文本识别的方法、装置、设备以及存储介质 | |
CN104361115A (zh) | 一种基于共同点击的词条权重确定方法及装置 | |
CN113408660B (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN110309234A (zh) | 一种基于知识图谱的客户持仓预警方法、装置及存储介质 | |
CN111143551A (zh) | 文本预处理方法、分类方法、装置及设备 | |
CN111222336A (zh) | 一种识别未知实体的方法及装置 | |
CN103631874A (zh) | 社交平台的ugc标签类别确定方法和装置 | |
CN110110035A (zh) | 数据处理方法和装置以及计算机可读存储介质 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
WO2022262632A1 (zh) | 网页搜索方法、装置及存储介质 | |
CN112700203A (zh) | 智能阅卷方法及装置 | |
CN113901214B (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN109146644A (zh) | 一种电子商务系统 | |
CN109189886A (zh) | 一种智能视频推荐系统 | |
CN112085522B (zh) | 一种工程项目的造价数据处理方法、系统、装置及介质 | |
CN111444337B (zh) | 一种基于改进kl散度的话题跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190205 |