CN101782998A - 一种违规在线产品信息的智能判断方法与系统 - Google Patents

一种违规在线产品信息的智能判断方法与系统 Download PDF

Info

Publication number
CN101782998A
CN101782998A CN200910045619A CN200910045619A CN101782998A CN 101782998 A CN101782998 A CN 101782998A CN 200910045619 A CN200910045619 A CN 200910045619A CN 200910045619 A CN200910045619 A CN 200910045619A CN 101782998 A CN101782998 A CN 101782998A
Authority
CN
China
Prior art keywords
product
product information
information
attribute
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910045619A
Other languages
English (en)
Inventor
李银胜
郑骁庆
吴晓彦
沈元一
顾轶灵
王海栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN200910045619A priority Critical patent/CN101782998A/zh
Publication of CN101782998A publication Critical patent/CN101782998A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及搜索引擎和在线产品信息的智能判断方法和计算机系统实现方法,基于元搜索技术得到在线产品信息页面,利用基于语义分析和网页结构分析技术抽取产品详细属性信息,利用预定义的在线产品信息发布规范,通过智能比对判断产品信息的规范性。本发明可以通过互联网,以电子邮件的方式,提供及时、精确、直观的特定产品监测结果报表,辅助互联网管理部门、电子商务监管部门等进行违规在线产品信息的跟踪和追查。

Description

一种违规在线产品信息的智能判断方法与系统
技术领域
本发明属计算机技术及系统领域,具体涉及搜索引擎和在线产品信息的智能判断方法和计算机系统实现方法。
背景技术
搜索引擎由搜索系统、索引系统和检索系统构成。搜索引擎提供出现某些关键词的相关链接或参考信息,例如,国外医药搜索引擎有https://www.cleopsa.com、https://pharmocracy.com、http://www.pharmacysearchengine.com。国内医药搜索引擎有http://www.yygoogle.com、http://info.100v1.com、http://drug.soouo.com等。这些网站关注的立足点大多是为公众提供公共卫生信息查询和药品使用指南,而不是关注于在线医药产品信息本身的合法性和规范性,因而不能用于对在线医药产品信息进行有效监管。语义分析技术方面,尽管语义技术在信息检索、互联网搜索引擎、电子商务产品比价、在线数据挖掘等领域开展了很多研究和尝试,有了良好的技术成果和应用效果。然而,现有的主流搜索引擎并没有系统使用语义技术与方法,搜索结果的精确度和完整性不能满足在线产品的监测和统计。
发明内容
本发明的目的在于提供一种违规在线产品信息的智能判断方法和计算机系统实现方法。本方法可以通过互联网,以电子邮件等方式,提供及时、精确、直观的特定产品监测结果报表,辅助互联网管理部门、电子商务监管部门等进行违规在线产品信息的跟踪和追查。
本发明的目的通过下述方法和步骤实现:
如图1和图2所示,本发明所述的基于语义的在线产品信息智能分析和抽取方法采用元搜索引擎思想,利用语义技术对各种电子商务网站和现有搜索引擎所提供的产品信息进行有效地抽取、转化、汇集、筛选、排序、索引和展现。
本发明所述的语义分析方法,对在线产品信息进行了细粒度的解析和抽取,包括产品的名称、价格、型号、品牌、产地、图片、性能指标等信息,极大地提高了收集信息的质量和查询的准确性。系统检索还支持逻辑匹配检索(如:AND和OR逻辑组合、*通配符、+和-词选项)和短语检索,部分具备了中文自然语言理解能力。本发明设计和构建了通用的在线产品语义字典,被应用于网页信息提取和户检索语句的分析。语义字典引入本体论的方法,使用较成熟的Protégé和Jena等工具来构建和维护在线产品的本体,从本体即可自动生成相应的语义字典。
本发明通过构建在线产品语义字典,使用网页结构分析和语义分析技术对产品信息发布页面进行智能分析和抽取。首先过滤掉类似FONT、I、B等格式控制标签,构建反映网页的逻辑结构的DOM树;然后利用语义字典所提供的词汇和语义关系信息定位目标信息(产品信息的属性,如价格、生产厂家、批准文号等),同时要求目标信息具有一定的聚集度,即目标信息在DOM树中有较近的共同父结点。满足上述条件的目标信息通过存储在语义字典中的模式进行匹配,抽取出产品信息的属性值。
语义字典由3个顶层类组成:商品、属性和地域,如图2所示。
商品:存储在线商品信息的各种属性,包括中文名称、英文名称、生产单位、规格、计量单位、价格、商标、描述、网址、特殊属性等。以药品类为例,特殊属性包括批准文号、批准日期、功能主治、主要成分、剂型、是否处方药。
属性:存储对在线商品属性进行抽取时所需的相关信息,包括属性的中文名称、英文名称、缩写、描述、同义词、标签、属性正则表达式、属性取值、属性值正则表达式。
地域:以分层方式存储了商品产地的行政区域信息,这些信息可用于对数据进行分区域统计。
在线产品语义字典的构建,采用了手动与自动相结合的方法。首先,对于产品标记和产品属性,采用人工方法进行语义提取,形成语义字典的静态部分。其次,对于电子商务产品涉及的概念,结合通用的产品分类体系进行手工语义提取与构建。最后,在手工构造的初级语义字典基础上,利用本体集成技术融入现有的通用语义字典,利用关联规则挖掘方法丰富和优化产品概念及其关系。
在线产品信息搜索和更新方面,系统面向互联网监管需求,利用不同领域、不同用途、不同结构的搜索引擎、产品比价网站、产品供求门户、电子商务网站索引等资源,采用元搜索的思想整合起来,提高系统的查全率和覆盖度。
语义字典的作用是支持在线所发布产品信息的语义分析,实现对互联网上的产品信息进行监测和统计。构建语义字典时,参考了电子商务产品信息发布和交易规范,分析了在线产品所涉及的监测和统计需求。语义字典包括了生产商、产地、报价、发布网站、网站注册情况等监管部门、税务部门、外贸部门、互联网管理部门所关注的词汇。
本发明所设计的在线产品语义字典采用了本体论的思想,其目的在于开发中可以使用现有的领域本体开发和设计工具。在线产品语义本体的构建,包括电子商务领域的产品知识建模、产品属性建模以及产品概念建模。
所设计的三维在线产品语义字典,包含产品词汇、产品属性、产品标记三个维度的术语。通过明确定义领域术语及其关系,形成了电子商务领域的三维在线产品语义库、产品属性语义库以及产品概念语义库。
在线产品语义又分为电子商务常识和行业知识。常识是电子商务领域的背景知识,例如“电子商务”等于“网络交易”等。行业知识包括电子商务行业定义的概念词汇及其关系,主要依据联合国标准产品与服务分类代码(United Nation Standard Products and Services Code,UNSPSC)分类层次与关系,同时考虑产品属性、表示方法、发布机构、标准规范等互联网应用特点。
在线产品涉及的产品词汇,来源于国内外网上交易的商品名称以及这些名称所关联的词汇。在线产品的语义字典与WordNet和CCD有所不同,后两者有25个义类,而UNSPSC是通用的国际规范,因此在线产品语义字典在WordNet的初始义类的基础上增加了一层,并对WordNet的初始义类进行了删减。这样,在线产品语义字典的根义类与WordNet一致,二级义类与UNSPSC一致。
在本发明中,在线产品涉及的产品属性,包括全球贸易专利代码、全球位置编码、产品中文名称、产品英文名称、规格型号、商标中文名称、产品分类、产品目标市场、包装形态代码、包装尺寸、度量单位、原产地、产品保持期、关键字(中文)、关键字(英文)、上市时间、下市时间、产品短描述(中文)、产品短描述(英文)、输入项名称、产品描述、价格信息、包装信息、计量信息、订购信息等。在线产品涉及的产品标记,主要是HTML语言中常见标签及其与分析产品信息有关的自定义标签,如P、Image、Price等。
在线产品语义字典与WordNet和CCD的总体结构类似。产品词汇、产品属性、产品标记等三个层次分别以同义词集来定义概念,在概念之间定义关系,所形成的三维语义,各自有独立的语义描述,相互之间也有语义关系。
(1)产品词汇关系涉及的词性包括名词、形容词,主要的关系有同义关系、上下位关系和整体部分关系。
本发明实现的系统根据电子商务监测的实际需要,去掉了动词、副词等词性,并新增了排它关系。考虑到电子商务领域是汉英双语通用的环境,对汉语概念、英语概念的关系进行了归纳,将汉语、英语统一于一部词典。表1是在线产品语义字典在WordNet基础上继承和新增的名词关系及其指针。
表1.在线产品语义字典在WordNet上继承和新增的名词关系及其指针
(2)在线产品的属性概念是预定义的,这些属性概念涉及的关系如下表2所示。
表2.在线产品预定义属性之间的关系
Figure G2009100456193D0000042
(3)在线产品的产品标记,也是预定义的,基本部分来自于对HTML语法的分析,其它部分来自于常见电子商务网站的产品非标准标签,这些标签之间的关系,如表3所示。
表3.在线产品超文本标记之间的关系
Figure G2009100456193D0000051
(4)组成三维语义字典的产品词汇、产品属性、产品标记之间,具有丰富的关联关系,如表4所示。
表4.产品词汇、产品属性、产品标记之间的关系
Figure G2009100456193D0000052
(5)上下位关系定义。基于本体概念和产品发布内容,在线产品的根义类定义为“产品”以及“属性”。产品的上下位关系以产品的类别为依据,根据产品所属的类别,定义下一级义类。例如,产品的下义包括:虚拟货品、数码产品、食品、服装饰品、音像制品等,而子类有包含它的下义类。属性类包括各种可能包含的产品描述,例如:品牌、价格、图片、型号、网站地址等。
(6)同义词定义。对每一个所涉及的概念定义同义词,例如,手机的同义词为移动电话。
(7)属性关系定义。如表5所示,对每一个产品类定义属性关系,子类继承父类的属性。
表5.产品类的属性关系
Figure G2009100456193D0000061
(8)定义属性:如表6所示,同一级别的属性实例有排他关系,例如颜色是红色,那么对其他的颜色就有排他属性,而同一级别中的一个实例对他同级别其他实例的子类也具有排他性,例如产地是美国,那么它对于中国及其子类上海同样具有排他性。
表6.属性实例定义
Figure G2009100456193D0000062
在线产品语义字典的构建,将依据领域内的术语与关系定义,采用手动与自动相结合的方法,一方面在产品分类规范、超文本标记语言语法以及电子商务网站等静态资源的基础上进行人工语义提取,另一方面利用产品元搜索所形成的数据库进行挖掘和提取,另外还通过集现有语义字典,进行完善和补充,整个构建过程如图8所示。
下面是本发明采用的几种语义构建方法。
(1)基于语义树的语义字典构建
基于语义树进行语义字典构造,建立在网页解析所得的在线产品概念描述之上。下面是一个在线产品信息的概念描述例子:
商品名:手机
同义词:移动电话,大哥大
英文名:cellular phone,cellphone,cell,mobile phone/
上位类:电话机
描述:一种手提式通讯设备,用于移动语音通话和收发短消息
属性:名称、商品名称、产品名称(继承属性)
一口价、网购价、促销特价、本站价格、会员价格、价格、折扣价(继承属性)
商品简介(继承属性)
上市时间、上架日期(继承属性)
品牌(继承属性)
索尼爱立信,索爱,Sony Ericsson;(属性实例)
摩托罗拉,Motorola,Moto;(属性实例)
......
支持频段、网络频率、网络类型、手机制式、网络制式(产品特殊属性)
GSM、CDMA、......(属性实例)
颜色、外观颜色、外壳颜色、手机颜色、可选颜色(新增属性)
银灰、黑色、......(属性实例)
通话时间、通话时间(分钟)、理论通话时间、通话时长(产品特殊属性)
......
......
建立的语义字典需要包括以下的基本功能:
■对于一个概念,获取其直接父概念;
■对于一个概念,获取其直接子概念;
■对于一个概念,获取其所有父概念;
■对于一个概念,获取其所有子概念;
■对于一个概念,获取其所有属性和概念描述;
■对于一个属性,获取其所有属性取值;
■两个概念之间的最短路径;
■对于一个概念,获取其同义词;
■对于一个概念,获取其反义词;
■对于一个概念,获取其所有的实例(比如对于“手机”,得到所有的品牌名称,实例也可能有同义词或英文标记或缩写等属性);
■对于一个实例,获取其所有的特殊属性;
给定一个词汇,获取所有需要检索的词(比如输入“手机”,得到所有的同义词、缩写、英文名、属性、品牌集合、品牌的特殊属性、属性可能取值的集合)。
定义描述商品的类,用树的数据结构来存储语义字典,树的结点对应于商品类的实例,树中的上下层关系表示商品之间的概念包含关系。利用树结构可以方便地实现上述语义字典所需的基本功能。
(2)基于产品规范的语义字典构建
电子商务领域使用较多的产品分类规范,包括UNSPSC、国家分类代码标准、全球产品分类(Globle Products Classfication,GPC)、全球贸易产品与服务代码标准GTIN(Global Trade Item Nunber)、国家产品/服务编码标准等。
各种规范手册的词条,均具有较为严谨的表现形式,通常为形容词与名词,其中形容词为名词的属性。例如,UNSPSC中的“移动电话”条目表示为“43191501 Mobile phones”。
根据以上特点,可以采用计算机或者手工按照下面方法提取语义:
■定义平行关系分割符号P{“、”,“及”};
■从使用P对产品名称进行分解得到名词词性的词组列表N,形容词、量词词性的词组列表A;
■将产品分类规范的条目规范化。转化为每个编码对应于一个具体的产品名称。属性值的条目保持不变。
对于两个产品名称,通过比较它们编码的共同部分,就可以得到它们的父结点。例如,如果产品名称含有名词,则只和相对应的上级概念产生关系;如只有属性词,则与上级所有名词产生上下义关系。这样,经过处理以后,最后的表现形式为每个概念和编码的对应关系,如表7所示,这种表现形式可以有效支持产品数据索引。
表7.UNSPSC规范最终表现形式
  编码   产品名称   分词结果
  43191501   Mobile phones   Mobile/Phone
  43191601   Mobile phone faceplates   Mobile/phone face plates
   ......   ......   ......
(3)产品语义字典的集成与扩充
在语义字典在初级语义基础上,本发明利用本体集成的方法来拓展概念词表。具体实现方式是对每个概念词汇进行同义词的扩充。可选的外部资源有通用语义字黄或者与电子商务相关的领域语义本体或字典,如面向出入境的产品本体等。
下面以WordNet和《中国汉语大词典》为例,说明所采用的集成方法。
领域本体与WordNet的融合有很多算法。大多是根据属性值来判断外部节点和WordNet节点的相似度,再进行属性的复制和节点的合并。由于本发明需要最大程度的考虑准确性,所以不能依据WordNet的语义距离来计算两个节点的相似度。因此根据WordNet的节点名称来判断该节点与在线产品本体里的节点值是否相同。
引入WordNet时需要重点解决的是下义词问题。因此,与WordNet的合并算法首先是根据在线产品语义字典的每一个概念名称,从WordNet中寻找到具有相同名称的节点。
其次是将WordNet该节点的下义复制到在线产品本体对应概念的下义列表。
本发明还与《中国汉语大词典》进行集成,该词典的格式是“词,词性,解释”。该词典主要解决同义词的问题,合并算法如下:
■对外部词典进行正规化,对解释进行分词,只保留名词、形容词和量词。
■获取基本概念词汇表中的词w,得到其词性C(W),查询外部词典的解释。在词典里,大多数的同义词,解释部分只有一个或少量的名词。若词W存在于解释中,且和词条的词性相同。可以根据以下公式计算出两个词条的相似程度。
S(W1,D)=1/Nd+Ad
■通过小样本的手工验证,来寻找合适的阀值。大于阀值的自动归入同义词表,其余的根据其相似值归入关联词条,供人工进一步审核。
其中Nd表示词条解释中含有的名词个数,Ad表示词条解释中含有的非名词、形容词和量词的个数。从公式可见,若解释里只有W一个名词,且无其它词,则两者的相似度为1。
通过这种方式,可以方便的得到同义词列表。
(4)基于关联规则挖掘的语义字典优化
除了以上的语义字典构造方法,本发明实现系统还将采用基于品类信息的关联规则挖掘方法,对在线产品搜索引擎运行过程中形成的历史数据进行处理,得到感兴趣的关联规则,再利用这些关联规则补充和优化语义字典。
本发明采用目前使用较多的本体描述语言OWL来描述在线产品语义字典。使用较成熟的Protégé和Jena等工具来构建和维护在线产品的本体,从本体可自动生成相应的语义字典。
OWL允许使用者定义适合自己使用的属性及其关系,描述逻辑是其逻辑学基础,具有很大的灵活度。在线产品本体定义里涉及到的概念、属性及其关系都可以通过OWL语言来进行描述。
产品元搜索涉及的主要技术包括搜索引擎整合与优化、产品信息抽取、检索结果排序、数据库索引等。
产品元搜索目前所集成的搜索资源包括:
■产品搜索引擎。目前有Google的Product Research;
■电子商务网址大全类网站。作用是能够快速、高效地定位知名电子商务网站,同时还能根据电子商务网址大全所提供的分类说明,作为语义分析的辅助信息。目前采用的是Alibaba网站;
■产品比价网站。这种网站本身提供了结果处理的产品信息。目前使用Paipai网;
■第三方电子商务平台。作用是可以高效获得数以百万计的电子商务网站,而且这些网站通常采用相同的发布信息和表达格式。目前采用的是Alibaba网站。各个搜索资源的结果集,采用以下方法进行调整:
■对每个独立的搜索引擎Si赋以权重w0,即Wi=w0
■计算从Ri中提取的结果数量Ni,Ni=c1|Ri|wi/∑wi,|Ri|表示集合Ri的基数,c1是常数,可以取0.1、0.01等,视返回结果的数量要求而定。各种搜索引擎的权重以百分数表示,并且令∑wi=1;
■将Ri中前Ni个结果取出,并合并形成2级结果集,对2级结果集应用位置排序算法进行排序,取出前n个结果形成3级结果集。其中n=c2∑Ni,c2的作用和c1一样,用来控制3级结果集中结果的数量;
■Si对3集结果集的贡献比率pi表示为Si对3级结果集贡献的结果数ni除以Si在2级结果集中的个数,pi=ni/Ni,规范化的贡献比率调节系数Pi=pi/∑pi
■重新调整每个Si的权重wi,wi=c3wi+c4Pi。其中,c3,c4都为常数,并且c3+c4-=1。对所有wi重新计算后,为了保证每次Pi对wi的影响是一样的,将wi进行归一化;
■对每次查询,重复步骤2到5。
产品信息分析与抽取是元搜索的重要组成部分,本发明包含两种信息分析功能,一种面向预定义电子商务网站,目的是获得一定数量的精确数据;另一种是面向没有预定义的电子商务网站,在互联网范围内智能定位并且解析新的电子商务网站所发布的产品信息。使用的信息分析技术,主要包含语义分词、语义消岐、关联度确定等方法。
(1)预定义产品信息提取与更新
产品信息抽取一般有两个过程:首先是定位到产品详细信息的页面,其次是对产品详细信息进行解析,并且抽取所需信息。由于电子商务网站产品发布格式的不一致,很难用一个体系去准确匹配所有网站。为此,本发明将首先结合所建立的三维在线产品语义字典,对产品信息量大、特定电子商务模式的主要电子商务网站,如一些比价网站、第三方电子商务平台等建立正则匹配模版,目的是为在线监测提供一定的精确数据。
该模板也包括HTML标签、产品属性和产品类别等元素。本发明将基于上述正则模板开发一个预定义产品信息提取与更新服务,不间断地对建立正则表达式的电子商务网站,以及在数据库中保存的产品信息进行持续的更新。
(2)动态的产品信息搜索与处理
本发明提供了一个面向未定义产品网站的产品信息提取服务,基于三维在线产品语义字典,对未知电子商务网站的页面进行结构和语义分析,自动分析产品所在网页的信息,并且提取产品相关的属性信息。
该服务可以根据网页中的超链接循环地提取网页信息,并自建网页数据库,保存搜索结果。无需存储所有检索到的网页页面信息,只需要根据超链接逐级深入直至产品详细信息页面,再进行内容的提取和整理,因此Spider需要根据网页的特征以特定算法迅速地分辨出该网页是否为详细页面,并据此对是否进行内容的提取做出辨别。
对于网页的信息自动抽取,主要是通过对网页的结构和语义分析,定位并抽取出所需的信息。算法步骤如下:
从语义字典中获取所有需要检索的词汇;
从HTML页面中定位需要检索的词汇(注意,需要检索的词汇应与可能的取值成对的出现,比如“价格”后面应该有形如“10.78元”的信息,后者用正则表达式检查。有些属性的值可能要用语义字典中定义的属性取值集合的元素来匹配);
确定需要抽取的信息,主要是考虑信息满足一定的聚合度(经观察,所抽取的信息一般在HTML形式的树结构中呈兄弟姐妹关系,而单独出现的检索词汇一般是孤立的标题,利用价值不大。初步考虑可以对HTML文件用树的宽度遍历算法,当需要检索的词在一定的范围内连续出现若干次后,可以确定一组信息聚集区);
将抽取信息存入相应的数据库中。
上述步骤可以实现比较全面地覆盖网上的产品发布信息,并且有比较持续的可扩容性和增长性,可以对语义字典作进一步的完善,以提高准确率。
(3)产品信息的中文语义分词
比较成熟的分词方法,有基于字符串匹配的分词方法和基于统计的分词方法两大类。基于字符串匹配的分词方法又叫做机械分词方法,它按照一定的策略将待分析的汉字串与一个“充分大的”语义字典中的词条进行匹配,若在字典中找到某个字符串,则匹配成功(识别出一个词)。
按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词包括正向最大匹配、逆向最大匹配和最少切分。
本发明的实现系统将采用机械分词方法,先采用语义字典对网页进行分词,再将分词结果进行人工验证。最后将调整后的分词结果整理成分词词典,对剩余的大量语料进行分词。
语义分词的基本思想如下:
■根据语义字典,找出字串中所有的可能词,构造词语切分有向无环图。每个词对应图中一条有向边,并赋给相应边长(权值);
■然后针对该切分图,在起点到终点所有路径中,求出长度值按严格升序排列依次为第1...n条路径作为相应的粗分结果集。如果两条或以上路径长度相等,那么其长度为i,列入粗分结果集;
■最后粗分结果集合大小大于或等于N。
(4)确定在线产品术语
经过分词以后,还需要对剩下的词汇进行筛选,选出领域相关的词汇。首先要定义抽取词汇的模式,再利用模式匹配算法从文档中抽取出词汇。一般来说,概念通常是名词或名词短语。如计算机、手机等。前面提到的禁用词主要是指无意义的词汇,这里还需要去除有意义但在该领域频繁出现,对单个词条意义不大的词,所以选取候选词的算法主要考虑到某个词汇对该领域重要程度的量化。
衡量术语重要程度的量化公式常用的有两个:一个是TFIDF方法,一个是领域相关度(Domain Relevance)和领域一致度(Domain Consensus)组合方法。
这里采用后一种方法。假定:领域集合Domain Set={D1,D2,…,Dn},t候选术语集中的一个元素。那么t对于领域Dk而言的领域相关度,简写为DRt,k,它的计算公式如下。
DR t , k = P ( t | D k ) max ≤ j ≤ n P ( t | D j )
领域相关度是通过和无关领域比较反映术语与特定领域的相关程度。
(5)产品信息语义消歧
由于存在大量的一个词多个含义的现象,所以语义消歧特别重要。在多数现有的自然语言处理算法中,上下文消歧法通常取自以目标词为中心的单词窗,这个窗一般只取目标词周围的一或二个单词,并且不考虑与目标词的距离及语法关系等。
本发明通过手工的调整分词词典以及其生成的分词结果,可以达到比较好的排除歧义的效果。
(6)搜索的可信度计算
在计算可信度时,要分别对在线产品语义字典中定义的各种关系进行处理。例如,处理修饰关系时首先需要使用定义的修饰关系关联度。对于每一个搜索结果,考虑产品属性关键词和修饰关系属性词的关联度。对修饰关系的具体处理算法是通过改进并串联系统稳定度数学模型来计算匹配情况。例如,对于第i个搜索结果的产品属性值Pi,其在语义字典中的第j个产品属性关键词是被该匹配所使的用产品属性关键词。将Pi在语义字典中的第j个商品名关键词记为NKij。根据语义分类树,在NKij的修饰关系属性词有n个节点匹配到商品名,把每个节点都看作一个并联组件,计算Pi的匹配情况为:
Rlb ( IN , P i ) = C ( IN ) × [ 1 - Π k = 1 n ( 1 - r ( NK ij , a k ) ) ]
其中,a为属性词层的修饰关系节点,C(IN)是对产品属性名的利用率,假设过滤附属词后的商品名长度为m,可由n/m得到。考虑到属性层修饰关系节点存在关联度因子r等于1,即和关键词100%关联的情况下,将屏蔽其他属性词的影响,再为因子r加入了一个调整函数。则Pi的可信度计算公式变成:
Rlb ( IN , P i ) = C ( IN ) × [ 1 - Π k = 1 n ( 1 - f ( r ( NK ij , a k ) ) ) ]
其中
采用基于语义的在线产品信息智能分析和抽取方法,将特定产品的信息从各种网页上经分析以结构化方式存储至数据库后,可以提供给特定用户进行查询和检索。当用户输入多种检索条件时,需要对检索结果集合进行排序。例如:在线产品交易监管部门需要检索发生多种违规情况的在线产品信息。本发明所提供的系统可以对各种检索条件进行权重分配,通过记录和不断修正用户的查询偏好来对检索结果集进行排序,提高用户搜索的满意度。
本发明的实现系统建立了有效的索引机制来提高数据库访问效率和减少查询响应时间。为了便于在线产品交易监管部门用户获取在线交易的汇总信息,以利于其行使监管职能和制订合理的政策,系统采用数据仓库技术,通过多维数据模型提供所需的汇总信息,并且具有Drill-down和Roll-up的功能。
本发明的工作流程如图3和图4所示。系统输入为违规产品相关属性参数,包括待监测产品的违规类型、产品信息、中英文产品名称、商标、价格区间、产品类型、规格、计量单位、产地和生产厂家等。对于特殊产品还包括其特殊属性,例如医药类产品包括批准文号和通用名称等。这些特殊属性会根据用户所选择的产品类型动态生成。系统的输出为违规产品信息的报表(包括上述各种属性和属性值)、违规描述和信息发布者信息。
具体工作流程如下:
(1)监管人员利用分配的账号密码进行登录;
(2)点击产品实时监测功能菜单;
(3)输入检索产品或服务的属性参数,并提交;
(4)系统执行搜索;
(5)输出符合检索条件违规对象的报表;
(6)可以以电子邮件方式将定制报表定期发送给用户。
本发明的智能搜索流程如下:
(1)用户输入产品的名称、生产厂家、价格等产品属性参数;
(2)系统根据输入的产品属性参数,首先在产品备案数据库中搜索,利用属性语义和属性关联权重矩阵得到匹配项;
(3)系统根据输入的产品属性参数,利用语义字典产生若干关键词对搜索引擎、电子商务大全、比价网站等执行元搜索,对新发现的相关网页进行结构分析、语义分析,并将网页中产品详细信息以结构化的方式存储到数据库,并建立相关的索引。索引分为面向统计的索引(可定期更新)、面向监测的索引(可每天更新);
(4)利用索引库,根据输入的产品属性参数对搜索结果进行排序,计算每条搜索结果的置信度,降序方式输出置信度大于设定阀值的产品列表;
(5)如果是监控,则输出具有缺失信息或者特定特征的产品列表;如果是统计,则输出产品列表和统计报表。
本发明的网页信息智能分析、抽取和判断流程如下:
(1)向电子商务网站提交查询;
(2)借助语义字典,对返回页面进行解析;
(3)抽取在线产品相关详细信息,并存入数据库;
(4)将存入数据库的在线产品信息和产品信息发布规范进行比对,比对过程中,考虑产品不同属性权重以及违规的严重程度,量化违规程度,并对不同的违规进行分类;
(4)周期性地更新数据仓库;
(5)定期检查产品信息来源网页是否可以正常访问。
本发明的系统实现架构如图5所示。其中,在线监测系统的子系统及其接口模型如图6所示:
初始化模块:完成系统初始化工作,包括对系统参数赋初值,启动数据库连接池、语义字典和日志功能模块;
产品信息搜索:包括基于正则表达式模版的预定义网站搜索和语义元搜索两个部分;
产品信息监测:包括产品实时监测、发布主体追查、定期监测报表三个部分。
本发明提供的在线产品信息分析方法,不仅可以解析网页结构以解决网页的异构性,还可以解析产品各种属性来解决不同类型产品的异构性。利用本发明所实现的系统可以通过互联网,以电子邮件的方式,提供及时、精确、直观的特定产品监测结果报表,辅助互联网管理部门、电子商务监管部门等进行违规在线产品信息的跟踪和追查。
附图说明
图1是本发明的基本原理图。
图2是本发明的功能模块图。
图3是本发明的操作流程图。
图4是本发明的输入输出图。
图5是本发明的技术架构图。
图6是本发明的系统模块图。
图7是本发明实施例中的产品上下义关系、产品属性类图。
图8是本发明实施例中的产品语义字典构造流程图。
具体实施方案
以下结合具体的实施例,对本发明做进一步的阐述。实施例仅用于对本发明做说明而不是对本发明的限制。
实施例1
本实施例以在线医药产品监测系统进一步说明基于本发明所实现的系统。
1、系统操作场景
(1)监管人员利用分配的账号密码进行登录;
(2)点击医药产品实时监测功能菜单;
(3)输入检索产品或服务的属性参数,并提交;
(4)系统执行搜索;
(5)输出符合检索条件违规对象的报表;
(6)可以以电子邮件方式将定制报表定期发送给用户。
2、系统输入输出
本实施例系统输入为违规产品相关属性参数,包括待监测产品的违规类型、产品信息、中英文产品名称、通用名称、商标、批准文号、价格区间、产品类型、规格、计量单位、产地和生产厂家等。这些属性会根据用户所选择的产品类型动态生成。系统的输出为违规产品信息的报表(包括上述各种属性和属性值)、违规描述和信息发布者信息。
3、系统功能模块
如图2及表8所示,产品监测和产品统计提供给监管部门特定产品及时、准确、直观的监测和统计结果,用户通过设定监测和统计参数进行搜索,搜索结果可以直接以在线的形式在浏览器中显示。
自动监测和统计则是监管部门用户通过设置监测和统计条件、报告时间和频率,后台定时按设定的监测和统计条件以电子邮件方式将结果报表发送给监管部门用户。
表8系统所提供的功能
  功能专利   功能说明
  系统登录   用户使用所分配的用户名和密码进行登录
  产品监测   在线设置监测条件,实时查看监测结果
  产品统计   在线设置统计条件,实时查看统计结果
  功能专利   功能说明
  定期监测任务设置   设置监测条件、报告时间和频率,系统定时按设定的监测条件以电子邮件方式将结果报表发送给监管部门用户
  定期统计任务设置   设置统计条件、报告时间和频率,系统定时按设定的统计条件以电子邮件方式将结果报表发送给监管部门用户
  系统管理   系统管理员进行系统维护和用户管理
4、在线产品信息智能分析、抽取和判断流程
(1)向电子商务网站提交查询;
(2)借助语义字典,对返回页面进行解析;
(3)抽取在线产品相关详细信息,并存入数据库;
(4)将存入数据库的在线产品信息和产品信息发布规范进行比对,比对过程中,考虑产品不同属性权重以及违规的严重程度,量化违规程度,并对不同的违规进行分类;
(4)周期地更新数据仓库;
(5)定期检查产品信息来源网页是否可以正常访问。
5、智能搜索流程
(1)用户输入产品的名称、生产厂家、价格等产品属性参数;
(2)系统根据输入的产品属性参数,首先在产品备案数据库中搜索,利用属性语义和属性关联权重矩阵得到匹配项;
(3)系统根据输入的产品属性参数,利用语义字典产生若干关键词对搜索引擎、电子商务大全、比价网站等执行元搜索,对新发现的相关网页进行结构分析、语义分析,并将网页中产品详细信息以结构化的方式存储到数据库,并建立相关的索引。索引分为面向统计的索引(每2周更新)、面向监测的索引(每天更新);
(4)利用索引库,根据输入的产品属性参数对搜索结果进行排序,计算每条搜索结果的置信度,降序方式输出置信度大于设定阀值的产品列表;
(5)如果是监控,则输出具有缺失信息或者特定特征的产品列表;如果是统计,则输出产品列表和统计报表。
根据监管部门的需求,本实施例采用了专业报表开发工具,提供更加友好的界面和强大的报表定制功能。
系统采用TimerTask每天按规定的时间从数据库读取所有任务,设置任务参数,自动生成报表,并且通过javamail向征订用户进行发送。监管用户可以定制监测和统计的条件、报告时间和频率。
本实施例的实现系统建立了有效的索引机制来提高数据库访问效率和减少查询响应时间。为了便于在线产品交易监管部门用户获取在线交易的汇总信息,以利于其行使监管职能和制订合理的政策。系统采用数据仓库技术,通过多维数据模型提供所需的汇总信息,并且具有Drill-down和Roll-up的功能。

Claims (5)

1.一种违规在线产品信息的智能判断方法,其特征在于包括下述步骤:
基于元搜索技术得到在线产品信息页面,利用基于语义分析和网页结构分析技术抽取产品详细属性信息,利用预定义的在线产品信息发布规范,通过智能比对判断产品信息的规范性。
2.按权利要求1所述的违规在线产品信息的智能判断方法,其特征在于所述的产品详细属性信息包括产品的名称、价格、型号、品牌、产地、图片和性能指标。
3.按权利要求1所述的违规在线产品信息的智能判断方法,其特征在于该方法中通过构建在线产品语义字典,使用网页结构分析和语义分析技术对产品信息发布页面进行智能分析和抽取。
4.按权利要求1所述的违规在线产品信息的智能判断方法,其特征在于所述的语义字典由3个顶层类组成:商品、属性和地域。
5.一种违规在线产品信息智能判断系统,其特征在于使用权利要求1所述的违违规在线产品信息的智能判断方法,采用B/S架构,以在线方式为互联网用户提供特定在线产品发布信息的统计与监测报表。
CN200910045619A 2009-01-20 2009-01-20 一种违规在线产品信息的智能判断方法与系统 Pending CN101782998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910045619A CN101782998A (zh) 2009-01-20 2009-01-20 一种违规在线产品信息的智能判断方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910045619A CN101782998A (zh) 2009-01-20 2009-01-20 一种违规在线产品信息的智能判断方法与系统

Publications (1)

Publication Number Publication Date
CN101782998A true CN101782998A (zh) 2010-07-21

Family

ID=42522985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910045619A Pending CN101782998A (zh) 2009-01-20 2009-01-20 一种违规在线产品信息的智能判断方法与系统

Country Status (1)

Country Link
CN (1) CN101782998A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
CN103870493A (zh) * 2012-12-14 2014-06-18 中国银联股份有限公司 对页面进行自动录入的系统和方法
CN104615590A (zh) * 2015-03-02 2015-05-13 浪潮集团有限公司 一种项目名称的提取方法和装置
CN104636346A (zh) * 2013-11-07 2015-05-20 腾讯科技(深圳)有限公司 网页数据查询方法及装置
CN104915876A (zh) * 2015-06-25 2015-09-16 北京京东尚科信息技术有限公司 处理无形商品的销售数据的方法和装置
CN105701247A (zh) * 2016-03-03 2016-06-22 黄川东 一种工程产品参数化应用系统的构建方法
CN107862642A (zh) * 2017-11-17 2018-03-30 深圳市城市公共安全技术研究院有限公司 危险品交易的监控方法、装置及存储介质
CN107886240A (zh) * 2017-11-09 2018-04-06 上海海事大学 一种基于规则的跨境电商商品质量风险识别方法
CN111506791A (zh) * 2020-04-10 2020-08-07 安徽博约信息科技股份有限公司 一种属地网站医药内容监测方法
CN112528638A (zh) * 2019-08-29 2021-03-19 北京沃东天骏信息技术有限公司 异常对象识别方法及装置、电子设备、存储介质
CN113010776A (zh) * 2021-03-03 2021-06-22 昆明理工大学 一种基于Monroe规则的元搜索排序Top-k聚合方法
CN113177407A (zh) * 2021-06-30 2021-07-27 平安普惠企业管理有限公司 数据字典的构建方法、装置、计算机设备及存储介质
CN113706246A (zh) * 2021-08-27 2021-11-26 和元达信息科技有限公司 一种网购平台店铺巡查方法
CN113744014A (zh) * 2020-09-29 2021-12-03 北京沃东天骏信息技术有限公司 物品信息监控方法、装置、设备及计算机可读存储介质

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662969A (zh) * 2012-03-11 2012-09-12 复旦大学 一种基于网页结构语义的互联网信息对象定位方法
CN102663025A (zh) * 2012-03-22 2012-09-12 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN102663025B (zh) * 2012-03-22 2014-04-02 浙江盘石信息技术有限公司 一种违规在线商品检测方法
CN103870493A (zh) * 2012-12-14 2014-06-18 中国银联股份有限公司 对页面进行自动录入的系统和方法
CN104636346A (zh) * 2013-11-07 2015-05-20 腾讯科技(深圳)有限公司 网页数据查询方法及装置
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
CN104615590A (zh) * 2015-03-02 2015-05-13 浪潮集团有限公司 一种项目名称的提取方法和装置
CN104915876A (zh) * 2015-06-25 2015-09-16 北京京东尚科信息技术有限公司 处理无形商品的销售数据的方法和装置
CN105701247A (zh) * 2016-03-03 2016-06-22 黄川东 一种工程产品参数化应用系统的构建方法
CN107886240A (zh) * 2017-11-09 2018-04-06 上海海事大学 一种基于规则的跨境电商商品质量风险识别方法
CN107886240B (zh) * 2017-11-09 2021-09-28 上海海事大学 一种基于规则的跨境电商商品质量风险识别方法
CN107862642A (zh) * 2017-11-17 2018-03-30 深圳市城市公共安全技术研究院有限公司 危险品交易的监控方法、装置及存储介质
CN112528638A (zh) * 2019-08-29 2021-03-19 北京沃东天骏信息技术有限公司 异常对象识别方法及装置、电子设备、存储介质
CN111506791A (zh) * 2020-04-10 2020-08-07 安徽博约信息科技股份有限公司 一种属地网站医药内容监测方法
CN113744014A (zh) * 2020-09-29 2021-12-03 北京沃东天骏信息技术有限公司 物品信息监控方法、装置、设备及计算机可读存储介质
CN113010776A (zh) * 2021-03-03 2021-06-22 昆明理工大学 一种基于Monroe规则的元搜索排序Top-k聚合方法
CN113177407A (zh) * 2021-06-30 2021-07-27 平安普惠企业管理有限公司 数据字典的构建方法、装置、计算机设备及存储介质
CN113706246A (zh) * 2021-08-27 2021-11-26 和元达信息科技有限公司 一种网购平台店铺巡查方法

Similar Documents

Publication Publication Date Title
CN101782998A (zh) 一种违规在线产品信息的智能判断方法与系统
US11663254B2 (en) System and engine for seeded clustering of news events
US7272595B2 (en) Information search support system, application server, information search method, and program product
He et al. Wise-integrator: An automatic integrator of web search interfaces for e-commerce
KR101114023B1 (ko) 확장형 문서 검색을 위한 콘텐츠 전파
US8239413B2 (en) System with user directed enrichment
US6732090B2 (en) Meta-document management system with user definable personalities
US6820075B2 (en) Document-centric system with auto-completion
US8219557B2 (en) System for automatically generating queries
US20080109285A1 (en) Techniques for determining relevant advertisements in response to queries
US20030061201A1 (en) System for propagating enrichment between documents
US20050022114A1 (en) Meta-document management system with personality identifiers
US20090125549A1 (en) Method and system for calculating competitiveness metric between objects
CN101116072A (zh) 用于分类呈现搜索结果的方法和系统
KR20090010185A (ko) 싱글 및 멀티플 택소노미 관리 방법 및 시스템
US20130246463A1 (en) Prediction and isolation of patterns across datasets
US11392595B2 (en) Techniques for determining relevant electronic content in response to queries
EP1776666A2 (en) Active relationship management
Aria et al. Package ‘bibliometrix’
CN101866340A (zh) 一种产品情报的在线检索和智能分析方法与系统
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
US20220156228A1 (en) Data Tagging And Synchronisation System
Yang An active recommendation approach to improve book-acquisition process
Anh Web Scraping: A Big Data Building Tool And Its Status In The Fintech Sector In Viet Nam
Mehrbod et al. Evaluation of an E-catalogue matching mechanism in public procurement notice search

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100721