CN101866340A - 一种产品情报的在线检索和智能分析方法与系统 - Google Patents

一种产品情报的在线检索和智能分析方法与系统 Download PDF

Info

Publication number
CN101866340A
CN101866340A CN200910049243A CN200910049243A CN101866340A CN 101866340 A CN101866340 A CN 101866340A CN 200910049243 A CN200910049243 A CN 200910049243A CN 200910049243 A CN200910049243 A CN 200910049243A CN 101866340 A CN101866340 A CN 101866340A
Authority
CN
China
Prior art keywords
product
product information
information
semantic
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910049243A
Other languages
English (en)
Inventor
李银胜
柴跃廷
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI CHENGFANG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI CHENGFANG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI CHENGFANG INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI CHENGFANG INFORMATION TECHNOLOGY Co Ltd
Priority to CN200910049243A priority Critical patent/CN101866340A/zh
Publication of CN101866340A publication Critical patent/CN101866340A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明包括产品情报的在线检索和智能分析方法和软件系统实现方法。目前的应用实例是对互联网产品信息进行搜索和分析的智能情报网系统。基于本发明实现的情报系统,利用元搜索技术检索互联网,利用语义推理分析产品情报,利用精确、直观的产品情报表,为企业和政府部门提供与市场竞争和企业经营有关的产品情报服务。

Description

一种产品情报的在线检索和智能分析方法与系统
2、技术领域:电子商务
3、背景技术
本专利相关的方法与各种搜索引擎的不同之处在于:搜索引擎是基于关键词提供相关链接或参考信息,而本专利所公开的方法和系统提供的是经过业务分析的产品情报。
实现方法和应用技术方面,就发明者所能访问的文献和互联网资源,仅有部分发明人在另一种应用领域的专利申请“一种在线检索和智能分析产品情报的方法和系统”。而该专利面向的是政府部门,目的是维护互联网秩序的违规产品判断;本专利面向的是企业,目的是与市场相关的产品情报。
搜索引擎由搜索系统、索引系统和检索系统构成。就搜索系统而言,本专利所采用的搜索流程和搜索源是一种异构的,由电子商务门户、搜索引擎、专业电子商务网站组合成的元搜索。本专利搜索结果的排序不以“被链接率”或“点击率”来判断优先级排序,不以标题、网址、标记、检索词出现频率和位置等来排序,而是根据是否与市场竞争和企业经营有关,来组织输出结果。
语义分析技术方面,尽管语义技术在信息检索、互联网搜索引擎、电子商务产品比价、在线数据挖掘等领域开展了很多研究和尝试,有了良好的技术成果和应用效果。然而,现有的主流搜索引擎并没有系统使用语义技术与方法,搜索结果的精确度和完整性不能满足在线产品的监测和统计。本专利采用的互联网产品信息分析方法,不仅可以解析网页结构以解决网页的异构性,还可以解析产品各种属性来解决不同类型产品的异构性,并且判断是否与市场竞争和企业经营有关。
4、专利目的
本专利所公开的产品在线情报检索与分析方法,利用元搜索技术检索互联网,利用语义推理分析产品情报,利用精确、直观的表格,为企业和政府部门提供与市场竞争和企业经营有关的产品情报服务。
5、发明内容
7.1产品情报检索原理
如图1和图2所示,本专利所公开的基于语义的在线产品情报检索、抽取和智能分析方法,采用元搜索引擎思想,利用语义技术对各种电子商务网站、现有搜索引擎所提供的产品信息进行有效地抽取、转化、汇集、筛选、排序、索引和展现。
本专利所公开的语义分析方法,对在线产品信息进行了细粒度的解析和抽取,包括产品的名称、价格、型号、品牌、产地、图片、性能指标等信息,极大地提高了收集信息的质量和查询的准确性。系统检索还支持逻辑匹配检索(如:AND和OR逻辑组合、*通配符、+和-词选项)和短语检索,部分具备了中文自然语言理解能力。专利设计和构建了通用的在线产品语义字典,被应用于网页信息提取和和户检索语句的分析。语义字典引入本体论的方法,使用较成熟的Protégé和Jena等工具来构建和维护在线产品的本体,从本体即可自动生成相应的语义字典。
采用基于语义的在线产品信息智能分析和抽取方法,将特定产品的信息从各种网页上经分析以结构化方式存储至数据库后。当用户输入多种检索条件时,需要对检索结果集合进行排序。
本专利的实现系统建立了有效的索引机制来提高数据库访问效率和减少查询响应时间(如图1的情报网数据库)。系统采用数据仓库技术,通过多维数据模型提供所需的汇总信息,并且具有Drill-down和Roll-up的功能。
7.2情报系统工作流程
本专利工作流程如图3和图4所示。专利系统输入为产品相关参数,包括产品中英文产品名称、商标、价格区间、产品类型、规格、计量单位、产地和生产厂家等。对于特殊产品,还包括其特殊属性。例如医药类产品包括批准文号和通用名称等。这些特殊属性会根据用户所选择的产品类型动态生成。
专利系统的输出为与市场竞争和企业经营有关的产品情报。
具体工作流程如下:
(1)用户利用分配的账号密码进行登录;
(2)点击产品情报功能菜单;
(3)输入检索产品参数,并提交;
(4)系统执行搜索和语义分析;
(5)输出符合检索条件的产品报表。
7.3产品信息元搜索流程
(1)用户输入产品的名称、生产厂家、价格等产品属性参数;
(2)系统根据输入的产品属性参数,首先在产品索引数据库中搜索,利用属性语义和属性关联权重矩阵得到匹配项;
(3)系统根据输入的产品属性参数,利用语义字典产生若干关键词对搜索引擎、电子商务大全、比价网站等执行元搜索,对新发现的相关网页进行结构分析、语义分析,并将网页中产品详细信息以结构化的方式存储到数据库,并建立相关的索引。
7.4产品情报智能抽取和分析流程
网页信息智能抽取和判断流程如下:
(1)借助语义字典,对返回页面进行解析;
(2)抽取在线产品信息并存入数据库;
(3)将存入数据库的产品信息和产品市场经营相关关键词进行比对,比对过程中,考虑产品不同属性权重进行分类;
(4)周期地更新数据仓库;
7.5系统基本模块设计
本专利的系统实现架构如图5所示。其中,系统的子系统模块如图6所示:
登录模块:处理用户登录和系统初始化工作,包括对系统参数赋初值,启动数据库连接池、语义字典和日志功能模块;
参数预处理模块:对输入的产品参数进行预处理;
产品情报元搜索:基于正则表达式对传统搜索引擎、电子商务网站、论坛等进行调用;
产品情报语义分析模块:对搜索到的结果进行语义分析,并且判断其与业务经营和市场竞争的关联性。
产品情报报表模块:组织报表,展示结果。
6、专利效果
(1)受益用户:本专利的用户为企业、政府部门和个人。
(2)功能特征:产品在线情报检索与分析方法,利用元搜索技术检索互联网,利用语义推理分析产品情报,利用精确、直观的表格,为企业和政府部门提供与市场竞争和企业经营有关的产品情报服务。
(3)技术指标:
情报覆盖率:可达整个互联网。
情报精确度:产品情报的精确度可以达到50%以上。
计算能力:可以实时响应用户大规模并发操作,每隔两周更新系统所跟踪的网站信息。
用户要求:用户只需使用当前主流的浏览器都可以正常登录和使用本系统,对于用户带宽没有特殊要求。
可靠性:作为第一个版本,系统可以保障7×24小时中,95%以上时间运行正常。
安全性:本系统采用主机托管的服务方式,服务器主机位于电信级机房中,拥有完善的安全防范措施,系统能够全天候的正常稳定的工作。
7、附图说明
附图1是本专利的基本原理图
附图2是本专利的功能模块图
附图3是本专利的操作流程图
附图4是本专利的输入输出图
附图5是本专利的技术架构图
附图6是本专利的系统模块图
附图7是本专利实施例中的产品情报语义字典结构
附图8是本专利实施例中的产品情报网功能结构图
附图9是本专利实施例中的产品情报网的首页界面
10、具体实施方式
基于本专利所描述方法所实现的系统是产品智能情报网(www.onlinefbi.com,如图9所示)。
10.1系统操作场景
如图9所示,
(1)用户利用分配的账号密码进行登录;
(2)点击产品情报功能菜单;
(3)输入检索产品参数并提交;
(4)系统执行搜索和语义分析;
(5)输出符合检索条件的产品报表。
10.2系统输入输出
专利系统输入为产品相关属性参数,包括待检索产品情报的中英文产品名称、商标、价格区间、产品类型、规格、计量单位、产地和生产厂家等。对于特殊产品,还包括其特殊属性。例如医药类产品包括批准文号和通用名称等。专利系统的输出为产品情报报表和来源。
10.3系统功能结构
如图8及表1所示,产品情报系统既可以提供给用户特定产品及时、准确、直观的检索结果,用户也可以通过设定产品参数、电子邮件、报告时间和频率,后台定时按设定的参数以电子邮件方式将结果报表发送给用户。
表1.系统所提供的功能
10.4智能分析和判断
网页信息智能分析、抽取和判断流程如下:
(1)通过产品情报语义字典,对返回页面进行解析;
(2)抽取产品相关详细信息并存入数据库;
(3)将存入索引数据库的产品信息进行分类;
(4)周期地更新数据仓库;
(5)定期检查产品信息来源网页是否可以正常访问。
10.5语义元搜索流程
智能搜索流程如下:
(1)用户输入产品的名称、生产厂家、价格等产品情报参数;
(2)系统根据输入的产品属性参数,首先在产品索引数据库中搜索,利用属性语义和属性关联权重矩阵得到匹配项;
(3)系统根据输入的产品属性参数,利用语义字典产生若干关键词对搜索引擎、电子商务网站、比价网站等执行元搜索,对新发现的相关网页进行结构分析、语义分析,并将网页中产品详细信息以结构化的方式存储到数据库,并建立相关的索引。
(4)利用索引库,判断产品信息与企业经营、市场的相关性,计算每条搜索结果的关联度,降序方式输出关联度大于设定阀值的产品信息列表。
(5)输出产品情报报表。
10.6产品情报的报表
系统采用TimerTask每天按规定的时间从数据库读取所有任务,设置任务参数,自动生成报表,并且通过javamail向用户进行发送。用户可以定制产品情报检索的条件、报告时间和频率。
本专利的实现系统建立了有效的索引机制来提高数据库访问效率和减少查询响应时间。为了便于用户获取在线交易的汇总信息,系统采用数据仓库技术,通过多维数据模型提供所需的汇总信息,并且具有Drill-down和Roll-up的功能。
10.7产品情报语义字典及其实现
本专利通过构建产品情报语义字典,使用网页结构分析和语义分析技术对产品信息发布页面进行智能分析和抽取。首先过滤掉类似FONT、I、B等格式控制标签,构建反映网页的逻辑结构的DOM树;然后利用语义字典所提供的词汇和语义关系信息定位目标信息(产品信息的属性,如价格、生产厂家、批准文号等),同时要求目标信息具有一定的聚集度,即目标信息在DOM树中有较近的共同父结点。满足上述条件的目标信息通过存储在语义字典中的模式进行匹配,抽取出产品信息的属性值。
如图7所示,语义字典由3个顶层类组成:商品、属性和地域。
产品:存储在线商品信息的各种属性,包括中文名称、英文名称、生产单位、规格、计量单位、价格、商标、描述、网址。目前商品类下又分药品、保健食品、医疗器械三类,它们分别又有各自的特殊属性。以药品类为例,特殊属性包括批准文号、批准日期、功能主治、主要成分、剂型、是否处方药。
属性:存储对在线商品属性进行抽取时所需的相关信息。包括属性的中文名称、英文名称、缩写、描述、同义词、标签、属性正则表达式、属性取值、属性值正则表达式。
地域:以分层方式存储了商品产地的行政区域信息,这些信息可用于对数据进行分区域统计。
在线产品语义字典的构建,采用了手动与自动相结合的方法。首先,对于产品标记和产品属性,采用人工方法进行语义提取,形成语义字典的静态部分。其次,对于电子商务产品涉及的概念,结合通用的产品分类体系进行手工语义提取与构建。最后,在手工构造的初级语义字典基础上,利用本体集成技术融入现有的通用语义字典,利用关联规则挖掘方法丰富和优化产品概念及其关系。
语义字典的作用是支持在线所发布产品信息的语义分析,实现对互联网上的产品信息进行检索和统计。语义字典包括了生产商、产地、报价、发布网站、网站注册情况、用户所关注的词汇。
本专利所设计的产品情报语义字典采用了本体论的思想,其目的在于开发中可以使用现有的领域本体开发和设计工具。产品语义本体的构建,包括电子商务领域的产品知识建模、产品属性建模以及产品概念建模。
所设计的三维在线产品语义字典,包含产品词汇、产品属性、产品标记三个维度的术语。通过明确定义领域术语及其关系,形成了电子商务领域的三维在线产品语义库、产品属性语义库以及产品概念语义库。
产品情报语义又分为电子商务常识和行业知识。常识是电子商务领域的背景知识,例如“电子商务”等于“网络交易”等。行业知识包括电子商务行业定义的概念词汇及其关系,主要依据联合国标准产品与服务分类代码(United Nation Standard Products and Services Code,UNSPSC)分类层次与关系,同时考虑产品属性、表示方法、发布机构、标准规范等互联网应用特点。
在线产品涉及的产品词汇,来源于国内外网上交易的商品名称以及这些名称所关联的词汇。在线产品的语义字典与WordNet和CCD有所不同,后两者有25个义类,而UNSPSC是通用的国际规范,因此在线产品语义字典在WordNet的初始义类的基础上增加了一层,并对WordNet的初始义类进行了删减。这样,在线产品语义字典的根义类与WordNet一致,二级义类与UNSPSC一致。
在本专利中,在线产品涉及的产品属性,包括全球贸易专利代码、全球位置编码、产品中文名称、产品英文名称、规格型号、商标中文名称、产品分类、产品目标市场、包装形态代码、包装尺寸、度量单位、原产地、产品保持期、关键字(中文)、关键字(英文)、上市时间、下市时间、产品短描述(中文)、产品短描述(英文)、输入项名称、产品描述、价格信息、包装信息、计量信息、订购信息等。在线产品涉及的产品标记,主要是HTML语言中常见标签及其与分析产品信息有关的自定义标签,如P、Image、Price等。
在线产品语义字典与WordNet和CCD的总体结构类似。产品词汇、产品属性、产品标记等三个层次分别以同义词集来定义概念,在概念之间定义关系,所形成的三维语义,各自有独立的语义描述,相互之间也有语义关系。
在语义字典在初级语义基础上,本专利将利用本体集成的方法来拓展概念词表。具体实现方式是对每个概念词汇进行同义词的扩充。可选的外部资源有通用语义字黄或者与电子商务相关的领域语义本体或字典,如面向出入境的产品本体等。
下面以WordNet和《中国汉语大词典》为例,说明所采用的集成方法。
领域本体与WordNet的融合有很多算法。大多是根据属性值来判断外部节点和WordNet节点的相似度,再进行属性的复制和节点的合并。由于本专利需要最大程度的考虑准确性,所以不能依据WordNet的语义距离来计算两个节点的相似度。因此我们根据WordNet的节点名称来判断该节点与在线产品本体里的节点值是否相同。
引入WordNet时需要重点解决的是下义词问题。因此,与WordNet的合并算法首先是根据在线产品语义字典的每一个概念名称,从WordNet中寻找到具有相同名称的节点。其次是将WordNet该节点的下义复制到在线产品本体对应概念的下义列表。
本专利还将与《中国汉语大词典》进行集成,该词典的格式是“词,词性,解释”。该词典主要解决同义词的问题,合并算法如下:
■对外部词典进行正规化,对解释进行分词,只保留名词、形容词和量词。
■获取基本概念词汇表中的词w,得到其词性C(W),查询外部词典的解释。在词典里,大多数的同义词,解释部分只有一个或少量的名词。若词W存在于解释中,且和词条的词性相同。可以根据以下公式计算出两个词条的相似程度。
S(W1,D)=1/Nd+Ad
■通过小样本的手工验证,来寻找合适的阀值。大于阀值的自动归入同义词表,其余的根据其相似值归入关联词条,供人工进一步审核。
其中Nd表示词条解释中含有的名词个数,Ad表示词条解释中含有的非名词、形容词和量词的个数。从公式可见,若解释里只有W一个名词,且无其它词,则两者的相似度为1。
通过这种方式,可以方便的得到同义词列表。
(4)基于关联规则挖掘的语义字典优化
除了以上的语义字典构造方法,本专利实现系统还将采用基于品类信息的关联规则挖掘方法,对在线产品搜索引擎运行过程中形成的历史数据进行处理,得到感兴趣的关联规则,再利用这些关联规则补充和优化语义字典。
本专利采用目前使用较多的本体描述语言OWL来描述在线产品语义字典。使用较成熟的Protégé和Jena等工具来构建和维护在线产品的本体,从本体可自动生成相应的语义字典。
OWL允许使用者定义适合自己使用的属性及其关系,描述逻辑是其逻辑学基础,具有很大的灵活度。在线产品本体定义里涉及到的概念、属性及其关系都可以通过OWL语言来进行描述。
10.8基于语义的元搜索技术
产品情报元搜索涉及的主要技术包括搜索引擎整合与优化、产品信息抽取、检索结果排序、数据库索引等。产品情报元搜索目前所集成的搜索资源包括:
■产品搜索引擎。目前有Google的Product Research;
■电子商务网址大全类网站。作用是能够快速、高效地定位知名电子商务网站,同时还能根据电子商务网址大全所提供的分类说明,作为语义分析的辅助信息。目前采用的是Alibaba网站;
■产品比价网站。这种网站本身提供了结果处理的产品信息。目前使用Paipai网;
■第三方电子商务平台。作用是可以高效获得数以百万计的电子商务网站,而且这些网站通常采用相同的发布信息和表达格式。目前采用的是Alibaba网站。
各个搜索资源的结果集,采用以下方法进行调整:
■对每个独立的搜索引擎Si赋以权重w0,即wi=w0
■计算从Ri中提取的结果数量Ni,Ni=c1|Ri|wi/∑wi,|Ri|表示集合Ri的基数,c1是常数,可以取0.1、0.01等,视返回结果的数量要求而定。各种搜索引擎的权重以百分数表示,并且令∑wi=1;
■将Ri中前Ni个结果取出,并合并形成2级结果集,对2级结果集应用位置排序算法进行排序,取出前n个结果形成3级结果集。其中n=c2∑Ni,c2的作用和c1一样,用来控制3级结果集中结果的数量;
■Si对3集结果集的贡献比率pi表示为Si对3级结果集贡献的结果数ni除以Si在2级结果集中的个数,pi=ni/Ni,规范化的贡献比率调节系数Pi=pi/∑pi
■重新调整每个Si的权重wi,wi=c3wi+c4Pi。其中,c3,c4都为常数,并且c3+c4=1。对所有wi重新计算后,为了保证每次Pi对wi的影响是一样的,将wi进行归一化;
■对每次查询,重复步骤2到5。
产品信息分析与抽取是元搜索的重要组成部分,本专利包含两种信息分析功能,一种面向预定义电子商务网站,目的是获得一定数量的精确数据;另一种是面向没有预定义的电子商务网站,在互联网范围内智能定位并且解析新的电子商务网站所发布的产品信息。使用的信息分析技术,主要包含语义分词、语义消岐、关联度确定等方法。
(1)预定义产品信息提取与更新
产品信息抽取一般有两个过程:首先是定位到产品详细信息的页面,其次是对产品详细信息进行解析,并且抽取所需信息。由于电子商务网站产品发布格式的不一致,很难用一个体系去准确匹配所有网站。为此,本专利将首先结合所建立的三维在线产品语义字典,对产品信息量大、特定电子商务模式的主要电子商务网站,如一些比价网站、第三方电子商务平台等建立正则匹配模版,目的是为在线监测提供一定的精确数据。
该模板也包括HTML标签、产品属性和产品类别等元素。专利将基于上述正则模板开发一个预定义产品信息提取与更新服务,不间断地对建立正则表达式的电子商务网站,以及在数据库中保存的产品信息进行持续的更新。
(2)动态的产品信息搜索与处理
本专利开发了一个面向未定义产品网站的产品信息提取服务,基于三维在线产品语义字典,对未知电子商务网站的页面进行结构和语义分析,自动分析产品所在网页的信息,并且提取产品相关的属性信息。
该服务可以根据网页中的超链接循环地提取网页信息,并自建网页数据库,保存搜索结果。无需存储所有检索到的网页页面信息,只需要根据超链接逐级深入直至产品详细信息页面,再进行内容的提取和整理,因此Spider需要根据网页的特征以特定算法迅速地分辨出该网页是否为详细页面,并据此对是否进行内容的提取做出辨别。
对于网页的信息自动抽取,主要是通过对网页的结构和语义分析,定位并抽取出所需的信息。算法步骤如下:
从语义字典中获取所有需要检索的词汇;
从HTML页面中定位需要检索的词汇(注意,需要检索的词汇应与可能的取值成对的出现,比如“价格”后面应该有形如“10.78元”的信息,后者用正则表达式检查。有些属性的值可能要用语义字典中定义的属性取值集合的元素来匹配);
确定需要抽取的信息,主要是考虑信息满足一定的聚合度(经观察,所抽取的信息一般在HTML形式的树结构中呈兄弟姐妹关系,而单独出现的检索词汇一般是孤立的标题,利用价值不大。初步考虑可以对HTML文件用树的宽度遍历算法,当需要检索的词在一定的范围内连续出现若干次后,可以确定一组信息聚集区);
将抽取信息存入相应的数据库中。
上述步骤可以实现比较全面地覆盖网上的产品发布信息,并且有比较持续的可扩容性和增长性,可以对语义字典作进一步的完善,以提高准确率。
(3)产品信息的中文语义分词
比较成熟的分词方法,有基于字符串匹配的分词方法和基于统计的分词方法两大类。基于字符串匹配的分词方法又叫做机械分词方法,它按照一定的策略将待分析的汉字串与一个“充分大的”语义字典中的词条进行匹配,若在字典中找到某个字符串,则匹配成功(识别出一个词)。
按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词包括正向最大匹配、逆向最大匹配和最少切分。
本专利的实现系统将采用机械分词方法,先采用语义字典对网页进行分词,再将分词结果进行人工验证。最后将调整后的分词结果整理成分词词典,对剩余的大量语料进行分词。
语义分词的基本思想如下:
■根据语义字典,找出字串中所有的可能词,构造词语切分有向无环图。每个词对应图中一条有向边,并赋给相应边长(权值);
■然后针对该切分图,在起点到终点所有路径中,求出长度值按严格升序排列依次为第1...n条路径作为相应的粗分结果集。如果两条或以上路径长度相等,那么其长度为i,列入粗分结果集;
■最后粗分结果集合大小大于或等于N。
(4)确定在线产品术语
经过分词以后,还需要对剩下的词汇进行筛选,选出领域相关的词汇。首先要定义抽取词汇的模式,再利用模式匹配算法从文档中抽取出词汇。一般来说,概念通常是名词或名词短语。如计算机、手机等。前面提到的禁用词主要是指无意义的词汇,这里还需要去除有意义但在该领域频繁出现,对单个词条意义不大的词,所以选取候选词的算法主要考虑到某个词汇对该领域重要程度的量化。
衡量术语重要程度的量化公式常用的有两个:一个是TFIDF方法,一个是领域相关度(Domain Relevance)和领域一致度(Domain Consensus)组合方法。
这里采用后一种方法。假定:领域集合Domain Set={D1,D2,...,Dn},t候选术语集中的一个元素。那么t对于领域Dk而言的领域相关度,简写为DRt,k,它的计算公式如下。
DR t , k = P ( t | D k ) max ≤ j ≤ n P ( t | D j )
领域相关度是通过和无关领域比较反映术语与特定领域的相关程度。
(5)产品信息语义消歧
由于存在大量的一个词多个含义的现象,所以语义消歧特别重要。在多数现有的自然语言处理算法中,上下文消歧法通常取自以目标词为中心的单词窗,这个窗一般只取目标词周围的一或二个单词,并且不考虑与目标词的距离及语法关系等。
本专利通过手工的调整分词词典以及其生成的分词结果,可以达到比较好的排除歧义的效果。
(6)搜索的关联度计算
在计算关联度时,要分别对在线产品语义字典中定义的各种关系进行处理。例如,处理修饰关系时首先需要使用定义的修饰关系关联度。对于每一个搜索结果,考虑产品属性关键词和修饰关系属性词的关联度。对修饰关系的具体处理算法是通过改进并串联系统稳定度数学模型来计算匹配情况。例如,对于第i个搜索结果的产品属性值Pi,其在语义字典中的第j个产品属性关键词是被该匹配所使的用产品属性关键词。将Pi在语义字典中的第j个商品名关键词记为NKij。根据语义分类树,在NKij的修饰关系属性词有n个节点匹配到商品名,把每个节点都看作一个并联组件,计算Pi的匹配情况为:
Rlb ( IN , P i ) = C ( IN ) × [ 1 - Π k = 1 n ( 1 - r ( NK ij , a k ) ) ]
其中,a为属性词层的修饰关系节点,C(IN)是对产品属性名的利用率,假设过滤附属词后的商品名长度为m,可由n/m得到。考虑到属性层修饰关系节点存在关联度因子r等于1,即和关键词100%关联的情况下,将屏蔽其他属性词的影响,再为因子r加入了一个调整函数。则Pi的关联度计算公式变成:
Rlb ( IN , P i ) = C ( IN ) × [ 1 - Π k = 1 n ( 1 - f ( r ( NK ij , a k ) ) ) ]
其中
10.9系统开发环境
客户端:通用浏览器
开发语言:Java/J2EE,网页采用ASP/HTML
开发环境:MyEclipseEnterprise Workbench 5.1.0GA
数据库:Oracle 10g
应用服务器:Tomcat 5.0
服务器端操作系统:Microsoft Windows 2003Server Edition
客户端:连接互联网,有通用浏览器软件的计算机
10.10软硬件需求
运行本专利实现系统,服务器端所要求硬设备的最小配置为:
PIII-1000MHz以上CPU
2GM以上内存
100GB以上硬盘空间;
10/100MB自适应网卡
数据库:Oracle 10g
应用服务器:Tomcat 5.0
服务器端操作系统:Microsoft Windows 2003 Server Edition
客户端要求:连接互联网,有主流浏览器软件的计算机。

Claims (3)

1.一种在线检索产品情报的方法。特征:基于元搜索技术,检索与市场竞争和企业经营有关的互联网产品情报信息,搜索范围可以覆盖整个互联网。
2.一种智能分析产品情报信息的方法。特征:基于语义技术和网页结构分析技术,智能分析产品信息是否与市场竞争和企业经营有关。
3.一种情报网Web系统的实现方法。特征:使用权利要求(1)、(2)的在线检索和智能分析方法,采用B/S架构和Web系统架构,通过在线方式为用户提供产品情报服务。
CN200910049243A 2009-04-14 2009-04-14 一种产品情报的在线检索和智能分析方法与系统 Pending CN101866340A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910049243A CN101866340A (zh) 2009-04-14 2009-04-14 一种产品情报的在线检索和智能分析方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910049243A CN101866340A (zh) 2009-04-14 2009-04-14 一种产品情报的在线检索和智能分析方法与系统

Publications (1)

Publication Number Publication Date
CN101866340A true CN101866340A (zh) 2010-10-20

Family

ID=42958071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910049243A Pending CN101866340A (zh) 2009-04-14 2009-04-14 一种产品情报的在线检索和智能分析方法与系统

Country Status (1)

Country Link
CN (1) CN101866340A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389998A (zh) * 2012-05-11 2013-11-13 安徽华贞信息科技有限公司 一种基于云服务的新型互联网商业情报语义分析技术
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法
TWI665566B (zh) * 2017-09-04 2019-07-11 優愛德股份有限公司 產品分類系統與方法
CN110502533A (zh) * 2019-08-27 2019-11-26 云汉芯城(上海)互联网科技股份有限公司 一种bom选型方法、装置及电子设备和存储介质
CN112559600A (zh) * 2020-12-22 2021-03-26 南京万购信息科技有限公司 基于搜索引擎检索数据的企业产品名录挖掘方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389998A (zh) * 2012-05-11 2013-11-13 安徽华贞信息科技有限公司 一种基于云服务的新型互联网商业情报语义分析技术
CN107341188A (zh) * 2017-06-08 2017-11-10 广州市呼百应网络技术股份有限公司 基于语义分析的高效数据筛选方法
TWI665566B (zh) * 2017-09-04 2019-07-11 優愛德股份有限公司 產品分類系統與方法
CN110502533A (zh) * 2019-08-27 2019-11-26 云汉芯城(上海)互联网科技股份有限公司 一种bom选型方法、装置及电子设备和存储介质
CN112559600A (zh) * 2020-12-22 2021-03-26 南京万购信息科技有限公司 基于搜索引擎检索数据的企业产品名录挖掘方法

Similar Documents

Publication Publication Date Title
US11222052B2 (en) Machine learning-based relationship association and related discovery and
US9305100B2 (en) Object oriented data and metadata based search
US7895221B2 (en) Internet searching using semantic disambiguation and expansion
KR101114023B1 (ko) 확장형 문서 검색을 위한 콘텐츠 전파
US7885918B2 (en) Creating a taxonomy from business-oriented metadata content
JP5150871B2 (ja) 単一および複数のタクソノミーを管理する方法とシステム
US10755179B2 (en) Methods and apparatus for identifying concepts corresponding to input information
Gunaratna et al. Gleaning types for literals in rdf triples with application to entity summarization
US20020065857A1 (en) System and method for analysis and clustering of documents for search engine
CN101782998A (zh) 一种违规在线产品信息的智能判断方法与系统
Trillo et al. Using semantic techniques to access web data
US7689433B2 (en) Active relationship management
US7024405B2 (en) Method and apparatus for improved internet searching
CA2956627A1 (en) System and engine for seeded clustering of news events
Kumar World towards advance web mining: A review
CN101866340A (zh) 一种产品情报的在线检索和智能分析方法与系统
US20050080774A1 (en) Ranking of business objects for search engines
Xu et al. Building spatial temporal relation graph of concepts pair using web repository
EP1505520A2 (en) Ranking of business objects for search engines
Kwon et al. Recommendation of e-commerce sites by matching category-based buyer query and product e-catalogs
Qumsiyeh et al. Enhancing web search by using query-based clusters and multi-document summaries
Mirizzi et al. Semantic tag cloud generation via DBpedia
Bamboat et al. Web content mining techniques for structured data: A review
Stanković et al. Improving document retrieval in large domain specific textual databases using lexical resources
Priyadarshini et al. Semantic clustering approach for documents in distributed system framework with multi-node setup

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
DD01 Delivery of document by public notice

Addressee: Shanghai Chengfang Information Technology Co., Ltd.

Document name: the First Notification of an Office Action

DD01 Delivery of document by public notice

Addressee: Li Yinsheng

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20101020