CN104572898B - 一种钢贸行业现货资源的数据解析方法及系统 - Google Patents
一种钢贸行业现货资源的数据解析方法及系统 Download PDFInfo
- Publication number
- CN104572898B CN104572898B CN201410826185.1A CN201410826185A CN104572898B CN 104572898 B CN104572898 B CN 104572898B CN 201410826185 A CN201410826185 A CN 201410826185A CN 104572898 B CN104572898 B CN 104572898B
- Authority
- CN
- China
- Prior art keywords
- steel
- data
- stock
- document
- split
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种钢贸行业现货资源的数据解析方法及系统,方法包括:1)获取包含钢材现货资源的文本文档;(2)加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;(3)对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;(4)清洗解析后的数据,得到完整的数据信息并存储入库。本发明通过钢材现货穷举词库实现对数据快速解析以及有效限定数据区域;经实测,采用本发明所述的数据解析方法,原始资源文档的有效数据转化率提升了70%左右,即大幅提升了有效数据转化率。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种钢贸行业现货资源的数据解析方法及系统。
背景技术
钢贸行业的“搜索”和其他行业一样,用户进入任何一个钢贸行业的网站,都会在醒目的位置找到搜索框,在搜索框内输入关键词就可以进行搜索。各种行业、领域的搜索框从形式上来看都是大同小异,但是后台的实现方式基于行业或者网站本身的特性是千差万别的。但无论基于何种方式,所有的搜索行为都会在一个给定的区域范围里进行。在钢贸行业,这样的一个用来查找目标信息的给定的区域范围称之为“资源池”。钢贸行业的“资源池”一般包括如下信息:品种、品名、规格、产地、仓库、价格、数量、重量、联系人等等。基于钢贸行业特性,用户在钢贸行业里进行搜索的目的当然是为了买入货物,而已经卖掉的货物或挂着前一天价格的货物并非用户所要查找的目标信息。所以,“资源池”里的数据一定是最新的,必须是搜索出来以后能够以挂牌价格买得到的货物。因此,“资源池”必须每天、甚至每小时源源不断地更新数据。
现代化钢贸行业网站的“资源池”数据一般是由不同的钢材供应商将包含现货货源信息的原始资源文档上传到网站,然后再汇总到网站的数据库中得来的。这些原始资源文档一般是以常见的文档格式上传的,比如word、Excel或txt文档。
由于每个供应商上传的资源文档格式不尽相同,有的甚至是没有格式的纯自然语言;但最终需要录入到数据库的数据必须是严格按照网站要求的行列规整的数据表;因此需要将各种杂乱无章的、格式多样的资源文档中的数据提取出来,整理、筛选、组织成统一格式的有效数据。现有技术中资源文档的解析对于原始文档内容本身的格式规范要求比较高,必须是行列对齐工整的数据。一旦原始文档不符合要求就无法从中提取有效数据,因此有效数据转化率比较低。
发明内容
本发明的目的在于,针对现有技术中钢贸行业资源文档的解析对于原始文档内容本身的格式规范要求比较高,存在有效数据转化率比较低的技术问题,提供一种数据解析方法及系统,通过采用钢材现货穷举词库对原始文档进行解析拆分,大幅提高了有效数据转化率。
为实现上述目的,本发明提供了一种钢贸行业现货资源的数据解析方法,包括:(1)获取包含钢材现货资源的文本文档;(2)加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;(3)对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;(4)清洗解析后的数据,得到完整的数据信息并存储入库。
为实现上述目的,本发明还提供了一种钢贸行业现货资源的数据解析系统,包括:文档获取单元、拆分单元、解析单元以及数据清洗单元;所述文档获取单元,用于获取包含钢材现货资源的文本文档;所述拆分单元与所述文档获取单元相连,用于加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;所述解析单元与所述拆分单元相连,用于对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;所述数据清洗单元与所述解析单元相连,用于清洗解析后的数据,得到完整的数据信息并存储入库。
本发明的优点在于:通过钢材现货穷举词库实现对数据快速解析以及有效限定数据区域;经实测,采用本发明所述的数据解析方法,原始资源文档的有效数据转化率提升了70%左右,即大幅提升了有效数据转化率。
附图说明
图1,本发明所述的钢贸行业现货资源的数据解析方法的流程示意图;
图2,本发明所述的钢贸行业现货资源的数据解析系统的架构示意图。
具体实施方式
下面结合附图对本发明提供的钢贸行业现货资源的数据解析方法及系统做详细说明。
参考图1,本发明所述的钢贸行业现货资源的数据解析方法流程示意图。所述方法包括,S12:获取包含钢材现货资源的文本文档;S14:加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合;S16:对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;S18:清洗解析后的数据,得到完整的数据信息并存储入库。以下对本发明所述的方法进行详细说明。
S12:获取包含钢材现货资源的文本文档。
获取包含钢材现货资源的文档可能包含.doc或.docx形式的word文档以及.txt形式的文本文档。对于文本文档可以直接采用本发明所述方法进行解析,对于word文档则需先转换成文本文档。因此,作为优选的实施方式,本发明所述方法进一步包括判断所获取的包含钢材现货资源的文档是否为word文档,若是,加载word文档解析程序,将所获取的word文档转换为文本文档,使文档格式统一化。
S14:加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合。
钢材现货穷举词库内记录后钢材的品名、材质、钢厂、规格、厚度、宽、仓库等;根据钢材现货穷举词库,即可解析出所获取的文本文档的每一行中各数据所代表的具体信息。钢贸行业中对于钢材规格的表述是有一定规律的,一般总是包含以下特征内容的字符串:数字、星号(*)、斜杠(/)、反斜杠(\)、短横杠(-)、单位名称(例如:mm,毫米)、求和符号(Σ)等。以钢材规格为新节点对每一行进行拆分时,通过对文本文档逐行扫描,寻找到包含以上特征的字符串即初步认定为一钢材规格串,从而以相邻的下一钢材规格串的开始前为拆分点对该行进行拆分。例如,一行数据源为本钢Q235B 2.5*1250=3650,2.7*1250/1500HPCC3630;利用钢材现货穷举词库对该行数据源进行扫描解析,可以解析出2.5*1250为一钢材规格串,2.7*1250/1500为一钢材规格串,因此将2.7*1250/1500及其之后的数据从原行中拆分出来作为新一行。
为了避免误读数据,可以在拆分前加载钢材现货穷举词库以及数字对应汉字编码,解析出品名、材质、钢厂、仓库,并将品名、材质、钢厂、仓库进行数字转换中文处理,避免解析钢材规格时出现误读,造成拆分失败。数字对应汉字编码中,每一阿拉伯数字对应一中文大写汉字数字;即“0123456789”对应“零壹贰叁肆伍陆柒捌玖”。例如对于数据409L/2D,利用钢材现货穷举词库解析出其为一种钢材材质,则利用数字对应汉字编码,将数据409L/2D转换成肆零玖L/贰D;从而避免解析钢材规格时出现误读。在解析、拆分完成后,再将这些中文相应转换成数字,以便于使用者查阅。
为了保证拆分后每一行数据的完整性,作为优选的实施方式,本发明进一步定义全局变量,并将所述全局变量带入每一行拆分后的对应下层,所述全局变量包括品名、材质、钢厂、仓库的至少其中之一。也即,当一行中包含品名、材质、钢厂、仓库等数据时,这些数据将作为全局变量带入下层,保证拆分后每一行数据的完整性。
定义的全局变量可以在步骤S14进行拆分的同时,直接带入拆分出的对应下层;也可以在拆分后将全局变量带入拆分后的对应下层。其中,每一行的局部变量优先级高于所述全局变量的优先级,从而在将全局变量带入拆分后的对应下层时,不会出现跨行带入。也即本行的全局变量只会带入本行拆分出的对应下层内;解析到下一行时,获取当前行对应的全局变量进行后续的带入。
S16:对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条。
通过步骤S14的操作得到钢材现货数据集合,因为不同的数据源附带的数据格式不同(例如:规格可能是0.4*315,也可能是0.4*295/305/315/355,也可能是0.5*1250-1445;价格可能是4030,也可能是4750-4900)。因此该集合中每一行中可能包含多条并列信息,需要针对并列信息进行进一步拆分。
作为优选的实施方式,本发明进一步根据钢材规格与钢材价格对应关系,将包含并列信息的钢材规格和/或钢材价格数据分解为多条;也即本次拆分主要针对规格与价格拆分。例如:原始字符:0.4*295/305 4030;拆分结果:0.4*295 4030 0.4*305 4030。原始字符:0.5*1250-1445 4750-4900;拆分结果:0.5*1250 4750 0.5*1445 4900。
S18:清洗解析后的数据,得到完整的数据信息并存储入库。
所谓数据清洗,即为:去除结果中的无效数据,比如重复的数据、明显不正常的价格、不存在的供应商、不存在的型号等。可以通过设置过滤规则对数据进行清洗,此为现有技术,此处不再赘述。
通过钢材现货穷举词库实现对数据快速解析以及有效限定数据区域;经实测,采用本发明所述的数据解析方法,原始资源文档的有效数据转化率提升了70%左右,即大幅提升了有效数据转化率。
以下给出本发明一实施例,以对本发明所述的数据解析方法进行进一步解释说明。
假设,获取的原始文档包含如下所示两行现货资源数据:
本钢Q235B 2.5*1250=3650,2.7*1250/1500 HPCC 36303.5/3.7/3.75/3.95*1250 3550A
中天409L/2D 0.5*1250-1445 4750-4900。
加载钢材现货穷举词库以及数字对应汉字编码,解析出品名、材质、钢厂、仓库等,并将品名、材质、钢厂、仓库进行数字转换中文处理:
本钢Q贰叁伍B 2.5*1250=3650,2.7*1250/1500 HPCC 3630 3.5/3.7/3.75/3.95*1250 3550A
中天肆零玖L/贰D 0.5*1250-1445 4750-4900。
利用钢材现货穷举词库,以钢材规格为新节点对每一行进行拆分,获取钢材现货数据集合:
本钢Q贰叁伍B 2.5*1250=3650
2.7*1250/1500 HPCC 3630
3.5/3.7/3.75/3.95*1250 3550A
中天肆零玖L/贰D 0.5*1250-1445 4750-4900。
全局带入全局变量本钢Q贰叁伍B到下一层,由于中天肆零玖L/贰D所在行的局部变量(即中天肆零玖L/贰D)优先级高于全局变量本钢Q贰叁伍B的优先级,从而在本钢Q贰叁伍B不会带入中天肆零玖L/贰D所在行,对应得到:
本钢Q贰叁伍B 2.5*1250=3650
本钢Q贰叁伍B 2.7*1250/1500 HPCC 3630
本钢Q贰叁伍B 3.5/3.7/3.75/3.95*1250 3550A
中天肆零玖L/贰D 0.5*1250-1445 4750-4900。
针对包含并列信息的钢材规格和/或钢材价格数据进行再次拆分,得到:
本钢Q贰叁伍B 2.5*1250=3650
本钢Q贰叁伍B 2.7*1250 HPCC 3630
本钢Q贰叁伍B 2.7*1500 HPCC 3630
本钢Q贰叁伍B 3.5*1250 3550A
本钢Q贰叁伍B 3.7*1250 3550A
本钢Q贰叁伍B 3.75*1250 3550A
本钢Q贰叁伍B 3.95*1250 3550A
中天肆零玖L/贰D 0.5*1250 4750
中天肆零玖L/贰D 0.5*1445 4900。
利用钢材现货穷举词库以及数字对应汉字编码,将品名、材质、钢厂、仓库等中文相应转换成数字:
本钢Q235B 2.5*1250=3650
本钢Q235B 2.7*1250 HPCC 3630
本钢Q235B 2.7*1500 HPCC 3630
本钢Q235B 3.5*1250 3550A
本钢Q235B 3.7*1250 3550A
本钢Q235B 3.75*1250 3550A
本钢Q235B 3.95*1250 3550A
中天409L/2D 0.5*1250 4750
中天409L/2D 0.5*1445 4900。
至此,得到符合钢贸行业网站要求的行列规整的数据表;去除结果中的无效数据,即可存储入库。
参考图2,本发明所述的钢贸行业现货资源的数据解析系统的架构示意图。所述系统包括文档获取单元22、拆分单元24、解析单元26以及数据清洗单元28,以下给出详细解释。
所述文档获取单元22,用于获取包含钢材现货资源的文本文档。获取包含钢材现货资源的文档可能包含.doc或.docx形式的word文档以及.txt形式的文本文档。对于文本文档可以直接采用本发明所述方法进行解析,对于word文档则需先转换成文本文档。因此,作为优选的实施方式,本发明所述系统进一步包括一判断单元21,用于判断所获取的包含钢材现货资源的文档是否为word文档,若是,加载word文档解析程序,将所获取的word文档转换为文本文档,使文档格式统一化。
所述拆分单元24与所述文档获取单元22相连,用于加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合。钢材现货穷举词库内记录后钢材的品名、材质、钢厂、规格、厚度、宽、仓库等;根据钢材现货穷举词库,即可解析出所获取的文本文档的每一行中各数据所代表的具体信息。钢贸行业中对于钢材规格的表述是有一定规律的,一般总是包含以下特征内容的字符串:数字、星号(*)、斜杠(/)、反斜杠(\)、短横杠(-)、单位名称(例如:mm,毫米)、求和符号(Σ)等。以钢材规格为新节点对每一行进行拆分时,通过对文本文档逐行扫描,寻找到包含以上特征的字符串即初步认定为一钢材规格串,从而以相邻的下一钢材规格串的开始前为拆分点对该行进行拆分。例如,一行数据源为本钢Q235B 2.5*1250=3650,2.7*1250/1500 HPCC 3630;利用钢材现货穷举词库对该行数据源进行扫描解析,可以解析出2.5*1250为一钢材规格串,2.7*1250/1500为一钢材规格串,因此将2.7*1250/1500及其之后的数据从原行中拆分出来作为新一行。
为了避免误读数据,所述系统进一步包括一转换处理单元23,所述转换处理单元与所述文档获取单元相连,用于加载钢材现货穷举词库以及数字对应汉字编码,对所述文本文档中包含的品名、材质、钢厂、仓库进行数字转换中文处理。也即可以在拆分前加载钢材现货穷举词库以及数字对应汉字编码,解析出品名、材质、钢厂、仓库,并将品名、材质、钢厂、仓库进行数字转换中文处理,避免解析钢材规格时出现误读,造成拆分失败。数字对应汉字编码中,每一阿拉伯数字对应一中文大写汉字数字;即“0123456789”对应“零壹贰叁肆伍陆柒捌玖”。例如对于数据409L/2D,利用钢材现货穷举词库解析出其为一种钢材材质,则利用数字对应汉字编码,将数据409L/2D转换成肆零玖L/贰D;从而避免解析钢材规格时出现误读。在解析、拆分完成后,再将这些中文相应转换成数字,以便于使用者查阅。
为了保证拆分后每一行数据的完整性,作为优选的实施方式,所述拆分单元24进一步包括一全局变量定义模块241,所述全局变量定义模块241用于定义解析的全局变量,并将所述全局变量带入每一行拆分后的对应下层,其中每一行的局部变量优先级高于所述全局变量的优先级,所述全局变量包括品名、材质、钢厂、仓库的至少其中之一。也即,当一行中包含品名、材质、钢厂、仓库等数据时,这些数据将作为全局变量带入下层,保证拆分后每一行数据的完整性。定义的全局变量可以在进行拆分的同时,直接带入拆分出的对应下层;也可以在拆分后将全局变量带入拆分后的对应下层。其中,每一行的局部变量优先级高于所述全局变量的优先级,从而在将全局变量带入拆分后的对应下层时,不会出现跨行带入。也即本行的全局变量只会带入本行拆分出的对应下层内;解析到下一行时,获取当前行对应的全局变量进行后续的带入。
所述解析单元26与所述拆分单元24相连,用于对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条。
系统所得到的钢材现货数据集合,因为不同的数据源附带的数据格式不同(例如:规格可能是0.4*315,也可能是0.4*295/305/315/355,也可能是0.5*1250-1445;价格可能是4030,也可能是4750-4900)。因此该集合中每一行中可能包含多条并列信息,需要针对并列信息进行进一步拆分。
作为优选的实施方式,本发明所述解析单元进一步用于根据钢材规格与钢材价格对应关系,将包含并列信息的钢材规格和/或钢材价格数据分解为多条。也即本次拆分主要针对规格与价格拆分。例如:原始字符:0.4*295/305 4030;拆分结果:0.4*295 4030 0.4*305 4030。原始字符:0.5*1250-1445 4750-4900;拆分结果:0.5*1250 4750 0.5*14454900。
所述数据清洗单元28与所述解析单元26相连,用于清洗解析后的数据,得到完整的数据信息并存储入库。所谓数据清洗,即为:去除结果中的无效数据,比如重复的数据、明显不正常的价格、不存在的供应商、不存在的型号等。可以通过设置过滤规则对数据进行清洗,此为现有技术,此处不再赘述。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种钢贸行业现货资源的数据解析方法,其特征在于,包括:
(1)获取包含钢材现货资源的文本文档;
(2)加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合,以钢材规格为新节点对每一行进行拆分时,通过对文本文档逐行扫描,寻找到包含以上特征的字符串即初步认定为一钢材规格串,从而以相邻的下一钢材规格串的开始前为拆分点对该行进行拆分;
(3)对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;
(4)清洗解析后的数据,得到完整的数据信息并存储入库;
步骤(2)进一步包括:(21)定义全局变量,并将所述全局变量带入每一行拆分后的对应下层,其中每一行的局部变量优先级高于所述全局变量的优先级,所述全局变量包括品名、材质、钢厂、仓库的至少其中之一;
步骤(3)进一步包括:根据钢材规格与钢材价格对应关系,将包含并列信息的钢材规格和/或钢材价格数据分解为多条。
2.根据权利要求1所述的数据解析方法,其特征在于,步骤(1)之前进一步包括:
(10)判断所获取的包含钢材现货资源的文档是否为word文档,若是,加载word文档解析程序,将所获取的word文档转换为文本文档。
3.根据权利要求1所述的数据解析方法,其特征在于,步骤(2)之前进一步包括:
(20)加载钢材现货穷举词库以及数字对应汉字编码,对所述文本文档中包含的品名、材质、钢厂、仓库进行数字转换中文处理。
4.一种钢贸行业现货资源的数据解析系统,其特征在于,包括:文档获取单元、拆分单元、解析单元以及数据清洗单元;
所述文档获取单元,用于获取包含钢材现货资源的文本文档;
所述拆分单元与所述文档获取单元相连,用于加载钢材现货穷举词库,以钢材规格为新节点对所述文本文档的每一行进行拆分,获取一钢材现货数据集合,以钢材规格为新节点对每一行进行拆分时,通过对文本文档逐行扫描,寻找到包含以上特征的字符串即初步认定为一钢材规格串,从而以相邻的下一钢材规格串的开始前为拆分点对该行进行拆分;
所述解析单元与所述拆分单元相连,用于对所述钢材现货数据集合进行解析,将包含并列信息的数据分解为多条;
所述数据清洗单元与所述解析单元相连,用于清洗解析后的数据,得到完整的数据信息并存储入库;
所述系统进一步包括一转换处理单元,所述转换处理单元与所述文档获取单元相连,用于加载钢材现货穷举词库以及数字对应汉字编码,对所述文本文档中包含的品名、材质、钢厂、仓库进行数字转换中文处理;
所述解析单元进一步用于根据钢材规格与钢材价格对应关系,将包含并列信息的钢材规格和/或钢材价格数据分解为多条。
5.根据权利要求4所述的数据解析系统,其特征在于,所述系统进一步包括一判断单元,所述判断单元与所述文档获取单元相连,用于判断所获取的包含钢材现货资源的文档是否为word文档,若是,加载word文档解析程序,将所获取的word文档转换为文本文档。
6.根据权利要求4所述的数据解析系统,其特征在于,所述系统进一步包括一转换处理单元,
所述转换处理单元与所述文档获取单元相连,用于加载钢材现货穷举词库以及数字对应汉字编码,对所述文本文档中包含的品名、材质、钢厂、仓库进行数字转换中文处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410826185.1A CN104572898B (zh) | 2014-12-22 | 2014-12-22 | 一种钢贸行业现货资源的数据解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410826185.1A CN104572898B (zh) | 2014-12-22 | 2014-12-22 | 一种钢贸行业现货资源的数据解析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572898A CN104572898A (zh) | 2015-04-29 |
CN104572898B true CN104572898B (zh) | 2017-09-22 |
Family
ID=53088960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410826185.1A Active CN104572898B (zh) | 2014-12-22 | 2014-12-22 | 一种钢贸行业现货资源的数据解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572898B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562701A (zh) * | 2017-08-22 | 2018-01-09 | 上海找钢网信息科技股份有限公司 | 一种钢贸行业现货资源的数据解析方法及其系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095644A (zh) * | 2011-10-28 | 2013-05-08 | 中国移动通信集团公司 | 一种数据内容解析方法及装置 |
CN103246745A (zh) * | 2013-05-22 | 2013-08-14 | 中国工商银行股份有限公司 | 一种基于数据仓库的数据处理装置及方法 |
CN103399244A (zh) * | 2013-08-21 | 2013-11-20 | 国网电力科学研究院 | 一种变电站现场测试智能解析数据方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8583609B2 (en) * | 2011-02-08 | 2013-11-12 | Barry Sewall | Method and system for creating an industry-specific computer dictionary and metadata apparatus for computer management applications using a multi-level database of terms and definitions |
-
2014
- 2014-12-22 CN CN201410826185.1A patent/CN104572898B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103095644A (zh) * | 2011-10-28 | 2013-05-08 | 中国移动通信集团公司 | 一种数据内容解析方法及装置 |
CN103246745A (zh) * | 2013-05-22 | 2013-08-14 | 中国工商银行股份有限公司 | 一种基于数据仓库的数据处理装置及方法 |
CN103399244A (zh) * | 2013-08-21 | 2013-11-20 | 国网电力科学研究院 | 一种变电站现场测试智能解析数据方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104572898A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105677710A (zh) | 大数据的处理方法和系统 | |
KR101757900B1 (ko) | 지식 베이스의 구축 방법 및 장치 | |
US20170132205A1 (en) | Identifying word collocations in natural language texts | |
Sarkar et al. | Issues in Pareto analysis and their resolution | |
CN107291907A (zh) | 一种业务数据多语言存储和查询方法及装置 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN104572898B (zh) | 一种钢贸行业现货资源的数据解析方法及系统 | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
US11625536B2 (en) | System and method for identification and profiling adverse events | |
Anand et al. | Analyzing and preprocessing the Twitter data for opinion mining | |
JP2009199341A (ja) | スパム・イベント検出装置及び方法並びにプログラム | |
CN104679819B (zh) | 钢贸行业现货资源的数据解析方法及系统 | |
CN106897270B (zh) | 一种文本中知识领域识别方法及系统 | |
CN111027285B (zh) | 一种从pdf格式订单中自动提取订单信息的方法及系统 | |
Tessore et al. | Comparative analysis of preprocessing tasks over social media texts in Spanish | |
JP2015046183A (ja) | 対話装置、方法、及びプログラム | |
Madhumathi et al. | Data mining in Ecommerce platforms for product managers | |
CN114925125A (zh) | 数据处理方法、装置和系统、电子设备及存储介质 | |
CN109857818B (zh) | 确定生产关系的方法、装置、存储介质及电子设备 | |
Kristanto et al. | Classification of Public Opinion on Vaccine Administration Using Convolutional Neural Network | |
US20170154035A1 (en) | Text processing system, text processing method, and text processing program | |
CN108073588B (zh) | 栏目信息提取方法和装置 | |
CN111143559A (zh) | 基于三元组的词云展示方法及装置 | |
CN112765941A (zh) | 自动提取网页正文的方法及系统 | |
Bak Halvgaard | Linguistic manifestations in the trimorphic Protennoia and the Thunder: Perfect mind: analysed against the background of Platonic and Stoic dialectics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 201815 Shanghai Industrial Zone, Jiading Huiyuan Road, No. 6, building 2, room E, room, 208 Applicant after: Shanghai looking for steel network information Polytron Technologies Inc Address before: 201815 Shanghai, Jiading Industrial Zone, Huiyuan Road, No. F, building, room 2, floor E, room 208 Applicant before: Shanghai steel electron rich commercial affairs company limited |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |