CN1896990A - 类别设定的支持方法和装置 - Google Patents

类别设定的支持方法和装置 Download PDF

Info

Publication number
CN1896990A
CN1896990A CNA2005101271745A CN200510127174A CN1896990A CN 1896990 A CN1896990 A CN 1896990A CN A2005101271745 A CNA2005101271745 A CN A2005101271745A CN 200510127174 A CN200510127174 A CN 200510127174A CN 1896990 A CN1896990 A CN 1896990A
Authority
CN
China
Prior art keywords
data item
data
product
correct answer
category setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101271745A
Other languages
English (en)
Other versions
CN100472518C (zh
Inventor
井上大悟
内野宽治
稻越宏弥
半野宏和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1896990A publication Critical patent/CN1896990A/zh
Application granted granted Critical
Publication of CN100472518C publication Critical patent/CN100472518C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Abstract

类别设定的支持方法和装置。根据本发明的类别设定支持方法包括以下步骤:基于预定相关项,针对存储在数据存储部中的多个数据项中的每一个,计算对数据项执行类别设定的影响度,并将该影响度与对应数据项相关联地存储到数据存储部中;和基于存储在该数据存储部中的影响度来确定每个数据项的类别设定优先级次序,并显示一显示画面以基于该类别设定优先级次序执行类别设定。因此,使诸如系统管理员的用户可以高效地对数据项设定类别。

Description

类别设定的支持方法和装置
技术领域
本发明涉及用于支持用户设定数据类别的技术。
背景技术
当前,因特网正逐渐成为社会基础设施,并且正在因特网上进行各种信息的发送。因此,为了使用户容易地找到所期望的信息,并且为了使信息提供方恰当地为用户提供必要信息,信息的分类和整理是非常重要的。通常,尽管存在基于规则库(rule base)和机器学习(machinelearning)的信息分类技术,但是不可避免地要在规则库中保存规则,并创建作为机器学习基础的正确答案数据以操作该系统。此外,为了通过与具有100%准确度的正确答案数据进行比较来识别类别,不可避免地要扩充正确答案数据。然而,由于正确答案数据的创建是通过系统管理员手动执行的,所以成本会变得非常高。
此外,在信息是产品信息的情况下,每天都增加数量巨大的新产品信息,不可能在服务时间以外的有限时段内创建与所增加的产品信息相对应的正确答案数据。此外,由于产品风格变化迅速,所以即使创建了正确答案数据,也存在正确答案数据很快就不再使用的情况。因此,很多情况下这种工作都没有价值。
另外,美国专利6,654,744公开了一种提高分类准确度而不考虑待分类信息的内容和数量的技术。具体来说,其具有:特征元素提取单元,其从包括在分类样本数据中的多个样本文本组中的每一个提取各类别的特征元素,样本文本组和多个类别预先与该分类样本数据相关联;分类方法确定单元,其基于分类样本数据在多个分类方法中确定具有最高分类准确度的分类方法;分类学习信息生成单元,其根据由分类方法确定单元确定的分类方法,基于由特征元素提取单元提取的特征元素生成表示各类别的特征的分类学习信息;以及自动分类单元,其根据由分类方法确定单元确定的分类方法和分类学习信息针对每个类别对待分类新文本组进行分类。然而,该美国专利未考虑任何正确答案数据。
发明内容
如上所述,尽管有必要高效地创建正确答案数据,但是在常规技术中没有针对这一点进行任何研究。正确答案数据是通过由系统管理员等直接将类别设定给待进行分类的信息而获得的。
因此,本发明一个目的是提供一种使得可以高效地将类别设定给数据的技术。
根据本发明的类别设定支持方法是一种用于支持对存储在数据存储部中的多个数据项进行类别设定的类别设定支持方法,其包括:基于预定相关项,针对存储在所述数据存储部中的多个数据项的每一个,计算对数据项执行类别设定的影响度,并将该影响度与对应数据项相关联地存储到该数据存储部中;和基于存储在该数据存储部中的影响度来确定各数据项的类别设定优先级次序,并显示一显示画面以基于该类别设定优先级次序执行类别设定。由此,使诸如系统管理员的用户能够高效地将类别设定给数据项。
此外,上述影响度可以基于数据项的利用频率和正确答案数据的未来利用度来确定,该正确答案数据是通过对数据项执行类别设定而获得的,并被用于对另一数据项执行类别设定。此外,数据项的利用频率可通过数据项访问量、数据项的访问增量以及设定于网络上的搜索引擎中的数据项的命中次数中的至少一个来计算,该数据项访问量和数据项的访问增量是通过使用在存储各数据项的访问日志的访问日志存储部中存储的数据来确定的。通过按照具有较高利用频率的数据项的次序来执行类别设定,可以将正确类别中的数据项呈现给数据项的阅读者。此外,通过按照具有待创建正确答案数据的较高未来利用度的数据项的次序来执行类别设定,使得正确并且自动地对另一数据项执行类别设定变得容易。
此外,上述未来利用度可通过包括在数据项的特定属性中的名词的出现度和表示包括在数据项的特定属性中的名词的一般性的指标中的至少一个来计算。例如,存在这样的情况:产品名称不仅由简单名词组成,而且由单词和诸如广告用语(catchphrase)的短语组成。在此情况下,当关注名词时,可以提高包括作为属性的产品名称的数据项的影响度,该产品名称包括许多具有高未来利用度的一般性名词。然后,当参考其中登记有一般性名词的数据库时,能够判断包括在数据项的特定属性中的名词是否是一般性的,并且,例如将该一般性名词的比率用作上述指标。
此外,该类别设定支持方法还包括:对每个数据项的类别执行自动判断处理,并将该类别名称与数据项相关联地存储到数据存储部中。在此情况下,执行该自动判断处理包括:针对每个数据项,执行分别具有不同置信度的多个自动判断处理,并将首先识别出的类别名称存储到数据存储部中。此外,所述显示可以包括显示对每个数据项的自动判断处理结果。基于影响度和一指标值可以确定每个数据项的类别设定优先级次序,该指标值是基于借以识别出数据项的类别的自动判断处理的置信度的。这样,为系统管理员等执行了用户支持。接着,当促使用户以信度的降序来设定类别时,由于降低了校正错误的频率,所以提高了设定效率。
可以创建一种使得计算机执行根据本发明的方法的程序,并将该程序存储在如软盘、CD-ROM、磁光盘、半导体存储器或硬盘的存储介质或存储装置中。此外,可以将该程序作为数字信号通过网络进行发布。另外,可将处理过程中的中间数据临时存储在如计算机中的存储器的存储装置中。
附图说明
图1是本发明一实施例的功能图;
图2是示出表示类别代码与类别名称之间的对应表的示例图;
图3是示出存储在产品数据存储部中的数据示例的图;
图4是示出存储在频现单词DB中的数据示例的图;
图5是示出存储在产品DB中的数据示例的图;
图6是示出存储在规则库DB中的数据示例的图;
图7是示出存储在分类规则DB中的数据示例的图;
图8是示出存储在正确答案数据DB中的数据示例的图;
图9是示出本发明实施例中的主处理流程的第一部分的图;
图10是示出本发明实施例中的主处理流程的第二部分的图;
图11是示出存储在分类产品数据存储部中的数据示例的图;
图12是用于说明分类方法等的置信度的图;
图13是示出本发明实施例中的主处理流程的第三部分的图;
图14是示出排序值(ranking value)计算处理的处理流程的第一部分的图;
图15是示出排序值计算处理的处理流程的第二部分的图;
图16是示出存储在排序结果存储部中的数据示例的图;
图17是示出呈现给用户的屏面示例的图;以及
图18是计算机的功能图。
具体实施例
图1示出了根据本发明一实施例的系统概要。在下文中,说明待分类数据项是产品数据的情况。然而,本发明的应用范围并不限于产品数据。
根据本实施例的类别设定支持装置与诸如因特网的网络相连接,并包括:产品数据存储部1,用于存储产品数据;正确答案数据DB 23,用于存储涉及由诸如系统管理员的用户设定的产品名称和类别代码对的数据;第一比较器3,用于响应于来自诸如系统管理员的用户的指令,利用存储在产品数据存储部1和正确答案数据DB 23中的数据来执行处理;频现单词DB 13,用于存储在所有类别中频现的单词数据;第二比较器5,用于响应于来自第一比较器3的指令,利用存储在产品数据存储部1和频现单词DB 13中的数据来执行处理;产品DB 15,用于存储产品的制造商名称和型号以及对应的类别代码;第三比较器7,用于响应于来自第二比较器5的指令,利用存储在产品DB 15和产品数据存储部1中的数据来执行处理;规则库DB 17,用于存储由系统管理员等设定的规则的数据;规则库分类单元9,用于响应于来自第三比较器7的指令,利用存储在产品数据存储部1和规则库DB 17中的数据来执行处理;分类规则DB 19,用于存储作为机器学习结果的分类规则的数据;机器学习分类单元11,用于响应于来自规则库分类单元9、用户等的指令,利用存储在产品数据存储部1和分类规则DB 19中的数据来执行处理;分类产品数据存储部25,用于存储第一比较器3、第二比较器5、第三比较器7、规则库分类单元9或机器学习分类单元11的处理结果;访问数据存储部29,用于存储从存储响应于来自外部对业务服务器31的访问而生成的访问日志的访问日志DB 33提取的访问数据;排序处理器27,用于利用存储在分类产品数据存储部25、规则库DB 17、访问数据存储部29等中的数据来执行处理;排序结果存储部35,用于存储排序处理器27的处理结果;正确答案数据设定单元37,用于提示用户通过利用存储在排序结果存储部35中的数据来执行类别设定,并用于基于该设定类别对存储在产品数据存储部1和正确答案数据DB 23中的数据执行更新处理;以及更新处理器21,用于更新存储在频现单词DB 13、规则库DB 17以及分类规则DB 19中的数据。排序处理器27与在诸如因特网的网络上的搜索引擎39相连接,并可以向该搜索引擎39发送搜索查询并接收包括命中次数的搜索结果。
此外,与诸如因特网的网络相连接的业务服务器31通过该网络将存储在产品数据存储部1中的数据发送给请求该数据的终端,并且生成访问日志并将生成的访问日志存储到访问日志DB 33中。
此外,如图2所示地预先定义类别代码,在以下处理中,将如图2所定义的类别代码指配给产品数据。在图2中,将类别名称与类别代码相关联。分层次配置类别代码,例如,“风格”和“风格>女士”的类别代码的前2位数字相同。下位的“风格>女士”的类别代码的后8位数字不同。类似地,“生活和内务>静态>办公用具>印章”、“生活和内务>静态>办公用具>剪刀”以及“生活和内务>静态>办公用具>粉碎机”具有相同的前7位类别代码数字和彼此不同的后3位数字。
例如,产品数据存储部1如图3所示对数据进行存储。在图3的示例中,产品数据存储部1存储产品名称、产品统一资源定位符(URL)、价格、产品关键字、商店名称、制造商名称、产品说明、产品图像URL、固定类别代码以及临时类别代码。如产品名称列所示,产品名称不仅可以包括单个产品名称,而且可以包括诸如广告用语(catchphrase)、型号以及产品名称与型号的组合的产品名称。在图3的示例中,尽管产品数据仅包括制造商名称,但是产品数据也可以包括型号。
例如,频现单词DB 13如图4所示存储数据。在图4的示例中,表包括在所有类别中都出现的频现单词的字符串和出现次数。频现单词在类别设定不受注意,而被用于判断在产品名称中是否使用了这种单词。
例如,产品DB 15如图5所示存储数据。在图5的示例中,表存储型号、制造商名称以及对应的类别代码。在型号和制造商名称均与产品的一对型号和制造商相同的情况下,或者在型号与产品的型号相同的情况下,将对应的类别代码设定给该产品的产品数据。
例如,规则库DB 17如图6所示存储数据。在图6的示例中,表存储有类别代码和关键字条件表达式(使用与、或、非等的表达式)。规则库分类单元9判断是否满足存储在规则库DB 17中的关键字条件表达式,并且如果满足关键字条件表达式,则设定对应的类别代码。
例如,分类规则DB 19如图7所示存储数据。在图7的示例中,表存储在其他类别中未出现的特征单词、类别代码以及相关系数。机器学习分类单元11根据存储在规则库DB 19等中的特征单词和相关系数,计算在矢量空间中的产品数据与类别之间的角度,并将具有最小角度的类别代码设定给产品数据。因为传统上存在这种处理,所以省略对其的进一步说明。
例如,正确数据DB 23如图8所示存储数据。在图8的示例中,表存储有产品名称、类别代码以及类别名称。正确答案数据是其中由系统管理员等设定的类别代码、类别名称以及产品名称相关联的数据,并且因为正确答案数据是由系统管理员等设定的,所以甚至可以登记诸如广告用语的产品名称和没有区别的产品名称。
接下来,使用图9到17来解释图1所示的系统处理。首先,将新产品的产品数据与已登记产品数据一起,恰当地登记在产品数据存储部1中(图9的步骤S1)。然而,在该阶段,尚未登记任何固定类别代码和临时类别代码。接下来,第一比较器3通过针对存储在产品数据存储部1中的产品数据的各产品名称搜索正确答案数据DB 23来将产品数据的产品名称与正确答案数据的产品名称进行比较(步骤S3)。另外,不必针对已被设定了固定类别代码的产品数据执行步骤S3以及随后的步骤。然后,判断产品数据的产品名称是否与正确答案数据的任一产品名称相符(步骤S5)。对于被判断为相符的产品数据,将该正确答案数据的类别代码设定给该产品数据(步骤S7)。即,在产品数据存储部1中将正确答案数据的类别代码登记为固定类别代码。在针对已被设定固定类别代码的产品数据执行步骤S3的情况下,在步骤S7处也分配同一类别代码。这是因为在已登记固定类别代码的情况下,已生成对应的正确答案数据。然后,通过分支末端A结束处理过程。
另一方面,对于其产品名称被判断为与正确答案数据的任何产品名称都不相符的产品数据,第一比较器3向第二比较器5输出处理启动指令。响应于来自第一比较器3的处理启动指令,第二比较器5针对尚未在产品数据存储部1中登记其固定类别代码的产品数据的产品名称执行单词分析,并执行处理以删除与在频现单词DB 13中登记的频现单词相同的单词(步骤11)。例如,对于“超便宜多功能粉碎机”的情况,因为已在频现单词DB 13中登记了“超便宜”,所以删除“超便宜”。因此,在步骤S11中,生成“多功能粉碎机”。然后,在删除频现单词之后针对产品名称搜索正确答案数据DB 23,以将删除了频现单词之后的产品名称与正确答案数据的产品数据进行比较。此后,判断删除了频现单词之后的产品名称是否与正确答案数据的任一产品名称相符(步骤S15)。将正确答案数据的类别代码分配给如下产品数据:该产品数据的产品名称在删除了频现单词之后被判断为与该正确答案数据的产品名称相符(步骤S17)。即,将包括该正确答案数据的类别代码的产品数据作为临时类别代码登记到分类产品数据存储部25中。此外,将分类方法代码“2”设定给该产品数据并将该分类方法代码登记到分类产品数据存储部25中(步骤S19)。然后,处理过程经由分支末端B转移到步骤S37。
另一方面,针对其产品名称在删除了频现单词之后被判断为与正确答案数据的任何产品名称都不相符的产品数据,第二比较器5向第三比较器7输出处理启动指令。响应于来自第二比较器5的处理启动指令,第三比较器7将以下两种数据进行比较:除尚未在产品数据存储部1中登记并且尚未在分类产品数据存储部25中登记其固定类别代码的产品数据的产品名称以外的数据;和存储在产品DB 15中的已知制造商名称和型号(步骤S21)。可以将该型号包括在产品名称中,也可以将其包括在产品关键字或产品说明中。
然后,判断作为除该产品数据的产品名称以外的数据的型号是否与产品DB 15中的任何记录的任何型号相符,或者判断作为除该产品数据的产品名称以外的数据的型号和制造商名称是否与产品DB 15中的任何记录的任何型号和任何制造商名称相符(步骤S23)。
将产品DB 15中的被判断为相符的记录的类别代码分配给被判断为相符的产品数据作为临时类别代码(步骤S25)。即,将包括从产品DB 15获得的类别代码的产品数据作为临时类别代码登记到分类产品数据存储部25中。此外,将分类方法代码“3”设定给产品数据,并将该分类方法代码登记到分类产品数据存储部25中(步骤S27)。然后,处理经由分支末端B转移到图10中的步骤S37。此外,在除产品数据的产品名称以外的数据被判断为与在产品DB 15中登记的任何型号或任何制造商名称以及任何型号名都不相符的情况下,处理经由分支末端C转移到图10中的步骤S29。
第三比较器7向规则库分类单元9输出处理启动指令。响应于来自第三比较器7的处理启动指令,规则库分类单元9将存储在规则库DB 17中的关键字条件表达式应用于尚未在产品数据存储部1中并且尚未在分类产品数据存储部25中登记其固定类别代码的产品数据(步骤S29:图10)。对于可根据存储在规则库DB 17中的任何关键字条件表达式来分类的产品数据(步骤S31:“是”分支),将与该产品数据所满足的并且在规则库DB 17中登记的关键字条件表达式相对应的类别代码指配给该产品数据,作为临时类别代码(步骤S33)。即,将包括从规则库DB 17获得的类别代码的产品数据作为临时类别代码登记到分类产品数据存储部25中。此外,将分类方法代码“4”设定给该产品数据,并将该分类方法代码登记到分类产品数据存储部中(步骤S35)。然后,处理转移到步骤S37。
另一方面,对于不满足在规则库DB 17中登记的任何关键字条件表达式的产品数据,处理转移到步骤S37。
接下来,规则库分类单元9向机器学习分类单元11输出处理启动指令。响应于来自规则库分类单元9的处理启动指令,机器学习分类单元11通过使用存储在分类规则DB 19中的数据,针对其固定类别尚未在产品数据存储部1中登记的产品数据执行公知的机器学习分类处理(步骤S37)。在该机器学习分类处理中,总能识别任何类别。然后,机器学习分类单元11参考分类产品数据存储部25,以将基于分类规则DB 19识别的类别代码作为产品数据(已登记了分类方法代码的产品数据(步骤S39:“是”分支))的候选类别代码登记到分类产品数据存储部25中(步骤S41)。例如,当不能将临时类别代码用作固定类别代码时,将候选类别代码用作系统管理员等的选项。然后,处理经由分支末端D转移到图13中的处理。
另一方面,机器学习分类单元11参考分类产品数据存储部25,以将基于分类规则DB 19识别的类别代码作为产品数据(尚未登记其分类方法代码的产品数据(步骤S39:“否”分支))的临时类别代码登记到分类产品数据存储部25中(步骤S43)。此外,将分类方法代码“5”设定给该产品数据,并将该分类方法代码登记到分类产品数据存储部25中(步骤S45)。此外,将基于分类规则DB 19识别为第二以及后续次序的类别代码作为候选类别代码登记到分类产品数据存储部25中(步骤S47)。然后,处理过程经由分支末端D转移到图13中的处理。
例如,通过上述处理过程获得的分类产品数据存储部25中的数据是如图11所示的数据。在图11的示例中,表存储产品名称、产品URL、价格、产品关键字、商店名称、制造商名称、产品说明、产品图像URL、临时类别代码、分类方法代码以及候选类别代码。与产品数据存储部1的差别在于添加了临时类别代码、分类方法代码以及候选类别代码。在图11的示例中,第一条记录的分类方法代码是“2”,第二条记录的分类方法代码是“3”,第三条记录的分类方法代码是“4”,第四条记录的分类方法代码是“5”。此外,对于通过正确答案数据识别出其类别代码的产品数据,假设其分类方法代码是“1”。
通常,如图12所示,其分类方法代码具有较小值的分类方法具有较高的分类准确度。此外,其分类方法代码具有较小值的分类方法具有较高的可控制性。另一方面,其分类方法代码具有较大值的分类方法可以减少更多麻烦。在本实施例中,假设通过正确答案数据进行的一对一比较是最好的分类方法。因此,下面说明高效地设定尽可能大的正确答案数据所需要的方法。
为此目的,排序处理器27执行排序值计算处理(步骤S49:图13)。使用图14到17详细说明该排序值计算处理。此外,必须将存储在访问日志DB 33中的数据的必需数据(例如,在预定期间内的日志。例如在访问日志DB 33还包括除有关访问的日志以外的日志的情况下,只提取有关访问的日志)存储在访问数据存储部29中。然而,排序处理器27可以使用访问日志DB 33本身。
排序处理器26从访问数据存储部29获得对产品i(其数据被存储在分类产品数据存储部25中)的访问次数A,并将该次数A存储到排序结果存储部35中(步骤S61)。例如,在预定时期内,针对每个产品i对访问日志的次数进行计数。访问次数是表示该产品i是否被多次查阅(即,产品i是否吸引一般用户)的指标。当访问次数很大时,在类别错误的情况下受到的影响也很大。此外,当访问次数很大时,预计不仅产品数据的利用频率很高,而且类似产品被登记的可能性很高并且正确答案数据的利用频率也很高。然后,基于预定义函数S1计算每个产品i的排序值R(i)=S1(A)(步骤S63)。函数S1是根据较大值A输出较大值的函数。
此外,排序处理器27从访问数据存储部29获得对登记在分类产品数据存储部25中的产品i所属的类别(这里为临时类别)的访问次数B,并将该访问次数B存储在排序结果存储部35中(步骤S65)。例如,从分类产品数据存储部25识别出产品i所属的类别,并基于所识别类别的类别代码对预定时期内的访问日志次数B进行计数。例如,可以采纳这样的结构,即,从目的地等的URL识别出类别代码,并使用该结构对访问次数求进行合计。该访问次数还表示包括产品i的类别对用户的吸引度。然后,根据预定义函数S2,通过计算R(i)=R(i)+S2(B)来更新每个产品I的排序值R(i)(步骤S67)。函数S2是根据较大值B输出较大值的函数。
此外,排序处理器27针对产品i的产品名称例如在因特网上搜索搜索引擎39,获得命中次数C,并将该命中次数C存储在排序结果存储部35中(步骤S69)。然后,判断该命中次数C是否等于或大于阈值X(步骤S71)。在该产品名称是普通名称的情况下,命中次数非常巨大,因此不适合用于排序值计算。因此,设定了阈值X。在命中次数C等于或大于阈值X的情况下(步骤S71:“是”分支),除产品名称以外,还针对诸如制造商名称和商店名称的预定义属性搜索搜索引擎39以获得命中次数C′,并将该命中次数C′存储在排序结果存储部35中(步骤S73)。与访问次数类似,在步骤S69处或在步骤S73处所计数的命中次数反映了产品名称的覆盖度和对普通用户的吸引度。然后,基于预定义函数S3计算R(i)=R(i)+S3(C′),以更新每个产品i的排序值R(i)(步骤S75)。然后,处理转移到图15中的步骤S93。函数S3是根据较大值C输出较大值的函数。
另一方面,在命中次数C小于阈值X的情况下(步骤S71:“否”分支),排序处理器27基于预定函数S3计算R(i)=R(i)+S3(C),以更新每个产品i的排序值R(i)(步骤S77)。然后,处理转移到图15中的步骤S93。
在步骤S75或步骤S77之后,排序处理器27通过使用存储在访问数据存储部29中的数据获得过去n天的产品i的访问增量D,并将该访问增量D存储在排序结果存储部35中(步骤S93)。访问增量D是通过当前访问量与n天前的访问量之差来计算的。该访问增量也表示了产品i对用户的吸引度。然后,基于预定义函数S5计算R(i)=R(i)+S5(D),并更新每个产品i的排序值R(i)(步骤S95)。函数S5也是用于根据较大值D输出较大值的函数。
此外,排序处理器27从排序结果存储部25获得产品i的分类方法代码E(步骤S97)。然后,基于预定义函数S6计算R(i)=R(i)+S6(E),并更新每个产品i的排序值R(i)(步骤S99)。如图12所示,因为当分类方法代码的值较小时,分类方法的置信水平较高,所以函数S6是根据较小值的分类方法代码E输出较大值的函数。在本实施例中,将高优先级设定给具有高置信水平的临时类别代码。因此,通过允许诸如系统管理员的用户尽可能多地将临时类别代码本身设定为固定类别代码而不耗费太多工作负荷,提高了工作效率。
然后,排序处理器27将在步骤S99处计算出的产品i的排序值R(i)存储到排序结果存储部35中(步骤S101)。此外,也将在图14和15中的处理流程的任何步骤中存储到分类产品数据存储部25中的产品数据存储到排序结果存储部35中。处理回到最初处理。
通过执行这种处理,计算了每个产品i的排序值。认为排序值表示为特定产品生成正确答案数据的影响度,即,将类别设定给特定产品数据的影响度。当排序值具有较大值时,对于生成正确答案(即,将类别设定给产品数据)的影响较高。另一方面,当排序值具有较小值时,对于生成正确答案(即,将类别设定给产品数据)的影响较小。该影响包括对浏览产品数据的普通用户的影响,和对生成正确答案数据(即,将类别设定给产品数据)的诸如系统管理员的用户的影响。对于前者,应当理解,当将错误类别设定给普通用户对其的利用频率很高并且被予以关注的(该产品具有较大值的访问次数、搜索引擎上的命中次数以及访问增量)产品数据时,从曝光度的角度来说问题会很严重。后者涉及根据未来利用度的影响度,该未来利用度表示一旦生成了正确答案数据之后,通过将生成的正确答案数据应用于其他许多产品来减少工作负荷。名词的出现率和登记在规则库中的名词率表示产品名称的一般性,当该一般性很高时,如上所述,未来利用度变高,应当按优先级生成正确答案数据。对于诸如具有低一般性的专有名词的产品名称,不必按优先级生成正确答案数据。
此外,在本实施例中,因为基于类别方法代码来更新排序值,所以根据正确答案数据的设定效率和上述影响度来设定排序值。如上所述,因为更多地减小了诸如系统管理员的用户的修正概率,所以当类别设定的准确度较高时改进了设定效率。
根据基于上述考虑计算出的排序值,确定了向诸如系统管理员的用户呈现产品数据的优先级。
图16示出了存储在排序结果存储部35中的数据示例。在图16的示例中,除存储在图11所示的分类产品数据存储部25中的数据以外,还加入对产品的访问次数、对类别的访问次数、命中次数、访问增量以及排序值。
返回来说明图13,接下来,正确答案数据设定单元37基于排序值等对存储在排序结果存储部35中的记录进行排序(如果用户进行指示,则也存在根据对产品的访问次数、对类别的访问次数、访问增量等进行排序的情况)。然后,基于排序结果生成待呈现给用户的显示数据,并将该显示数据输出到显示装置(步骤S53)。例如,显示如图17所示的屏面。图17的屏面包括:单选按钮,其选择基于排序值的排序、基于命中次数的排序、基于对产品的访问次数的排序以及基于访问增量的排序中的一种;表示存储在排序结果存储部35中的数据的表;输入栏,其在临时类别不正确的情况下输入表的各行的正确类别代码;复选框,其在临时类别正确的情况下设定表的各行的复选标记;以及OK按钮,其指示执行设定。通过使用图2所示的数据可以执行从类别代码提取类别名称。诸如系统管理员的用户可以通过单选按钮来执行对产品的重新整理,并确认产品数据的临时类别代码是否正确,并且在正确时为该产品数据的复选框设定复选标记。在不正确时,例如可以参考候选类别数据,并输入其代码,也可以输入另一类别的代码。在图17中,尽管只显示了上部分排序值,但是通过滚动可以显示其排序值较低的产品数据,也可以通过多屏面来呈现数据。
正确答案数据设定单元37从用户接受输入(步骤S55),并根据用户输入将在复选框中设定了复选标记的产品数据或输入了正确类别代码的产品数据的一组产品名称和类别代码存储到正确答案数据DB 23中(步骤S57)。此外,对于在复选框中设定了复选标记的产品数据或输入了正确类别代码的产品数据,将临时类别代码或输入类别代码登记为固定类别代码,对于在复选框中未设定复选标记的产品,将临时类别代码登记为临时类别代码。
通过执行上述处理,可以按其中根据排序值分配优先级次序的形式将产品数据呈现给诸如系统管理员的用户。当用户根据该优先级次序设定类别代码时,用户可通过设定类别代码来按照影响度的降序并按照工作效率的降序来执行作业。
尽管说明了本发明一个实施例,但是本发明并不限于该实施例。例如,图1所示的功能框并不总是对应于实际程序模块。此外,图17的屏面配置只是一个示例,屏面配置并不限于图17。此外,能够根据待处理的数据恰当地改变在计算排序值中使用的函数。此外,尽管指示在规则库中登记的名词作为一般名词的示例,但是可以预备存储有一般名词的其他数据存储部。
此外,上述类别设定支持装置可以是通过网络与服务器31相连接的服务器,并且例如可以接收来自与该网络相连接的其他终端的指令。
另外,更新处理器21使用存储在正确答案数据DB 23中的数据例如周期性的或在任意定时对频现单词DB 13、规则库DB 17以及分类规则DB 19执行更新处理。更新处理器21在不偏向于任何特定类别的情况下提取在正确答案数据DB 23中登记的产品名称中频现单词,并将这些单词存储到频现单词DB 13中。更新处理器21执行从存储在正确答案数据DB 23中的产品名称和类别代码提取出关键字条件表达式的处理,并将它们存储到规则库DB 17中。该处理根据来自用户的指令执行。另外,更新处理器21对存储在正确答案数据DB 23中的产品名称和类别代码执行机器学习处理,并将处理结果存储到分类规则DB 19中。
另外,类别设定支持装置是如图18所示的计算机设备。即,如图18所示,通过总线2519连接存储器2501(存储装置)、CPU 2503(处理器)、硬盘驱动器(HDD)2505、连接到显示装置2509的显示控制器2507、移动盘2511的驱动装置2513、输入装置2515,以及用于与网络相连接的通信控制器2517。在HDD 2505中存储有用于执行本实施例的上述处理的操作系统(OS)和应用程序,当通过CPU 2503执行它们时,从HDD2505将它们读入到存储器2501。如有必要,CPU 2503对显示控制器2507、通信控制器2517以及驱动装置2513进行控制,并使它们执行所需操作。此外,将中间处理数据存储在存储器2501中,若有必要,将它们存储在HDD 2505中。在本发明本实施例中,将用于实现上述功能的应用程序存储在移动盘2511中并进行发布,然后从驱动装置2513将其安装到HDD2505中。可以通过诸如因特网的网络和通信控制器2517将其安装到HDD2505中。在如上所述的计算机中,诸如CPU 2503和存储器2501的硬件、OS以及必要的应用程序系统地相互协作,从而实现如上详细描述的各种功能。
尽管针对本发明的具体优选实施例描述了本发明,但是对于本领域的技术人员可以想到各种变化和修改,因此本发明旨在包括落在所附权利要求的范围内的这种变化和修改。

Claims (14)

1、一种用于支持对存储在数据存储部中的多个数据项进行类别设定的方法,所述方法包括以下步骤:
基于预定相关项,针对存储在所述数据存储部中的多个数据项中的每一个,来计算对数据项执行类别设定的影响度,并将计算出的影响度与对应数据项相关联地存储到所述数据存储部中;和
基于存储在所述数据存储部中的所述影响度,来确定每个所述数据项的类别设定优先级次序,并显示一显示画面以基于所述类别设定优先级次序执行所述类别设定。
2、如权利要求1中所述的方法,其中,基于所述数据项的利用频率和正确答案数据的未来利用度来确定所述影响度,通过对所述数据项执行所述类别设定获得该正确答案数据,并将该正确答案数据用于对另一数据项执行所述类别设定。
3、如权利要求2中所述的方法,其中,通过所述数据项的访问量、所述数据项的访问增量以及设于网络上的搜索引擎中的所述数据项的命中次数中的至少一个,计算所述数据项的所述利用频率,所述数据项的访问量和所述数据项的访问增量是通过利用在存储各所述数据项的访问日志的访问日志存储部中存储的数据来确定的。
4、如权利要求1中所述的方法,还包括以下步骤:
对每个所述数据项的类别执行自动判断处理,并将通过该自动判断处理识别出的类别代码与对应数据项相关联地存储到所述数据存储部中。
5、如权利要求4中所述的方法,其中,所述执行自动判断处理的步骤包括以下步骤:针对每个所述数据项执行分别具有不同置信度的多个自动判断处理,并将首先识别出的类别代码存储到所述数据存储部中,并且所述确定步骤和显示步骤包括以下步骤:基于所述影响度和一指标值来确定每个所述数据项的所述类别设定优先级次序,该指标值是基于借以识别出所述数据项的类别的所述自动判断处理的置信度的。
6、如权利要求1中所述的方法,进一步包括以下步骤:
从存储在所述数据存储部中的所述多个数据项中删除通过与所述正确答案数据进行比较而识别出其类别代码的数据项。
7、如权利要求6中所述的方法,进一步包括以下步骤:
将输入类别的代码与由用户对其设定了所述类别的所述数据项相关联地登记到所述数据存储部中;和
将由所述用户对其设定了所述类别的所述数据项的特定属性和所述输入类别的所述代码作为正确答案数据登记到正确答案数据存储部中。
8、一种用于支持对存储在数据存储部中的多个数据项进行类别设定的装置,所述装置包括:
计算单元,其基于预定相关项,针对存储在所述数据存储部中的多个数据项中的每一个,计算对数据项执行类别设定的影响度,并将计算出的影响度与对应数据项相关联地存储到所述数据存储部中;和
显示单元,其基于存储在所述数据存储部中的所述影响度来确定每个所述数据项的类别设定优先级次序,并显示一显示画面以基于所述类别设定优先级次序来执行所述类别设定。
9、如权利要求8中所述的装置,其中,基于所述数据项的利用频率和正确答案数据的未来利用度来确定所述影响度,通过对所述数据项执行所述类别设定获得所述正确答案数据,并将所述正确答案数据用于对另一数据项执行所述类别设定。
10、如权利要求9中所述的装置,其中,通过所述数据项的访问量、所述数据项的访问增量以及设于网络上的搜索引擎中的所述数据项的命中次数中的至少一个,计算所述数据项的所述利用频率,所述数据项的访问量和所述数据项的访问增量是通过利用在存储各所述数据项的访问日志的访问日志存储部中存储的数据来确定的。
11、如权利要求8中所述的装置,进一步包括:
自动判断单元,其对每个所述数据项的类别执行自动判断处理,并将通过所述自动判断处理识别出的类别代码与对应数据项相关联地存储到所述数据存储部中。
12、如权利要求11中所述的装置,其中,所述自动判断处理单元包括:针对每个所述数据项执行分别具有不同置信度的多个自动判断处理,并将首先识别出的类别代码存储到所述数据存储部中,并且所述显示单元基于所述影响度和一指标值来确定每个所述数据项的所述类别设定优先级次序,该指标值是基于借以识别出所述数据项的类别的所述自动判断处理的置信度的。
13、如权利要求8中所述的装置,进一步包括:
删除单元,其从存储在所述数据存储部中的所述多个数据项中删除通过与所述正确答案数据进行比较而识别出其类别代码的数据项。
14、如权利要求13中所述的装置,进一步包括:
代码登记单元,其将输入类别的代码与由用户对其设定了所述类别的所述数据项相关联地登记到所述数据存储部中;和
正确答案数据登记单元,其将由所述用户对其设定了所述类别的所述数据项的特定属性和所述输入类别的所述代码作为正确答案数据登记到正确答案数据存储部中。
CNB2005101271745A 2005-07-13 2005-11-15 类别设定的支持方法和装置 Expired - Fee Related CN100472518C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005204192 2005-07-13
JP2005204192A JP4368336B2 (ja) 2005-07-13 2005-07-13 カテゴリ設定支援方法及び装置

Publications (2)

Publication Number Publication Date
CN1896990A true CN1896990A (zh) 2007-01-17
CN100472518C CN100472518C (zh) 2009-03-25

Family

ID=37609518

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101271745A Expired - Fee Related CN100472518C (zh) 2005-07-13 2005-11-15 类别设定的支持方法和装置

Country Status (3)

Country Link
US (1) US20070016581A1 (zh)
JP (1) JP4368336B2 (zh)
CN (1) CN100472518C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590178A (zh) * 2017-07-31 2018-01-16 杭州大搜车汽车服务有限公司 一种基于vin码的车型匹配方法、电子设备、存储介质
CN110383249A (zh) * 2017-03-09 2019-10-25 三菱电机大楼技术服务株式会社 软件更新管理系统和程序

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8538958B2 (en) * 2008-07-11 2013-09-17 Satyam Computer Services Limited Of Mayfair Centre System and method for context map generation
JP2010092401A (ja) * 2008-10-10 2010-04-22 Panasonic Corp ネットワーク機器、機器、その情報検索方法、およびそのプログラム
US20110093478A1 (en) * 2009-10-19 2011-04-21 Business Objects Software Ltd. Filter hints for result sets
JP5346841B2 (ja) * 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法
CN102609422A (zh) * 2011-01-25 2012-07-25 阿里巴巴集团控股有限公司 类目错放识别方法和装置
CN103310343A (zh) * 2012-03-15 2013-09-18 阿里巴巴集团控股有限公司 商品信息发布方法和装置
US8682864B1 (en) 2012-06-20 2014-03-25 Google Inc. Analyzing frequently occurring data items
CN103577989B (zh) * 2012-07-30 2017-11-14 阿里巴巴集团控股有限公司 一种基于产品识别的信息分类方法及信息分类系统
JP6007075B2 (ja) * 2012-11-16 2016-10-12 任天堂株式会社 サービス提供システム、サービス提供方法、サーバシステムおよびサービス提供プログラム
JP5753217B2 (ja) * 2013-05-17 2015-07-22 株式会社アイディーズ 商品コード分析システム及び商品コード分析プログラム
JP6291844B2 (ja) * 2014-01-06 2018-03-14 日本電気株式会社 データ処理装置
WO2018100681A1 (ja) * 2016-11-30 2018-06-07 株式会社オプティム 商品対応url生成システム、商品対応url生成方法およびプログラム
JP6680725B2 (ja) * 2017-06-12 2020-04-15 ヤフー株式会社 カテゴリ選択装置、広告配信システム、カテゴリ選択方法、およびプログラム
WO2019051814A1 (zh) * 2017-09-15 2019-03-21 达闼科技(北京)有限公司 一种目标识别方法、装置和智能终端
US11860780B2 (en) 2022-01-28 2024-01-02 Pure Storage, Inc. Storage cache management

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5537586A (en) * 1992-04-30 1996-07-16 Individual, Inc. Enhanced apparatus and methods for retrieving and selecting profiled textural information records from a database of defined category structures
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US6941321B2 (en) * 1999-01-26 2005-09-06 Xerox Corporation System and method for identifying similarities among objects in a collection
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
US6654744B2 (en) * 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US7814043B2 (en) * 2001-11-26 2010-10-12 Fujitsu Limited Content information analyzing method and apparatus
US20040128555A1 (en) * 2002-09-19 2004-07-01 Atsuhisa Saitoh Image forming device controlling operation according to document security policy
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
CN1993697A (zh) * 2004-06-18 2007-07-04 皮克托兴克公司 网络内容组织工具
US7428530B2 (en) * 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110383249A (zh) * 2017-03-09 2019-10-25 三菱电机大楼技术服务株式会社 软件更新管理系统和程序
CN107590178A (zh) * 2017-07-31 2018-01-16 杭州大搜车汽车服务有限公司 一种基于vin码的车型匹配方法、电子设备、存储介质
CN107590178B (zh) * 2017-07-31 2020-10-16 杭州大搜车汽车服务有限公司 一种基于vin码的车型匹配方法、电子设备、存储介质

Also Published As

Publication number Publication date
CN100472518C (zh) 2009-03-25
JP2007025868A (ja) 2007-02-01
US20070016581A1 (en) 2007-01-18
JP4368336B2 (ja) 2009-11-18

Similar Documents

Publication Publication Date Title
CN1896990A (zh) 类别设定的支持方法和装置
US9262528B2 (en) Intent management tool for identifying concepts associated with a plurality of users' queries
US7747601B2 (en) Method and apparatus for identifying and classifying query intent
US9317613B2 (en) Large scale entity-specific resource classification
CN103493045A (zh) 对在线问题的自动回答
JP2005509952A (ja) 知識ベースに対して情報抽出および品質管理を実施する方法およびシステム
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
WO2009002525A1 (en) System and method for providing targeted content
US7765219B2 (en) Sort digits as number collation in server
WO2008022150A2 (en) Method and apparatus for identifying and classifying query intent
WO2012026140A1 (ja) データベース処理方法、データベース処理システム及びデータベースサーバ
CN113204621A (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN112231555A (zh) 基于用户画像标签的召回方法、装置、设备及存储介质
CN111191111A (zh) 内容推荐方法、装置及存储介质
CN113297458A (zh) 一种分页查询方法、装置和设备
CN109145092B (zh) 一种数据库更新、智能问答管理方法、装置及其设备
CN113723926A (zh) 结合rpa和ai的银行流水处理方法、装置及电子设备
CN114175007A (zh) 用于数据匹配的主动学习
CN115757461A (zh) 一种银行数据库应用系统结果聚类方法
CN109961320A (zh) 一种基于计算机网络开发运营意见反馈收集系统
CN111159213A (zh) 一种数据查询方法、装置、系统和存储介质
KR101894419B1 (ko) 개인화된 정보 제공 시스템, 방법 및 그에 대한 기록매체
US10261972B2 (en) Methods and systems for similarity matching
CN1317665C (zh) 信息收集检索装置
CN115409553B (zh) 一种基于大数据和位置信息的广告投放系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090325

Termination date: 20181115

CF01 Termination of patent right due to non-payment of annual fee