CN107533545B - 信息提示装置、信息提示方法及记录介质 - Google Patents

信息提示装置、信息提示方法及记录介质 Download PDF

Info

Publication number
CN107533545B
CN107533545B CN201580077969.1A CN201580077969A CN107533545B CN 107533545 B CN107533545 B CN 107533545B CN 201580077969 A CN201580077969 A CN 201580077969A CN 107533545 B CN107533545 B CN 107533545B
Authority
CN
China
Prior art keywords
score
document group
word
product
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201580077969.1A
Other languages
English (en)
Other versions
CN107533545A (zh
Inventor
浜田伸一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Publication of CN107533545A publication Critical patent/CN107533545A/zh
Application granted granted Critical
Publication of CN107533545B publication Critical patent/CN107533545B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

实施方式的信息提示装置具有:第1分数计算部(10),从文件DB(100)中抽取A文件组(15),并计算其中包含的各个单词的第1分数;第2分数计算部(10),从文件DB(100)中抽取B文件组(25),并计算其中包含的各个单词的第2分数;第3分数计算部(30),从文件DB(100)中抽取A∩B文件组(35),并计算其中包含的各个单词的第3分数;整合分数计算部(50),对A∩B文件组(35)中包含的各个单词分别从第3分数减去第1分数和第2分数来计算整合分数;提示部(60),将根据整合分数选择的一个以上的重要单词或者包含重要单词的A∩B文件组(35)中的一个以上的文本的至少一方,作为推荐理由进行提示。

Description

信息提示装置、信息提示方法及记录介质
技术领域
本发明的实施方式涉及信息提示装置、信息提示方法及记录介质。
背景技术
提供电子商务交易(EC:Electronic Commerce)服务的EC系统大多具有商品推荐功能,在用户参照某一商品时一并提示与该商品相关联的其它商品。商品推荐功能大致划分为将与用户参照的商品(以下称为“第1商品”)相同类型的商品作为购买的选项进行提示的对立型推荐,和介绍与第1商品配套的其它商品(以下称为“第2商品”)以促进所谓“捎带购买”的配套型推荐。其中,配套型推荐在大多数情况下以将从统计观点考虑与第1商品的相关性较高的商品提示为第2商品的组合来实现。
在配套型推荐中,用户识别第1商品和第2商品的组合效果很重要。即,仅仅靠与第1商品一起单纯地提示第2商品,在用户识别不出这些商品的组合效果的情况下,不能产生“捎带购买”第2商品的动机。例如,对于不知道作为秩父(地名)的B级美食而成为话题的“味增土豆”的用户而言,在仅仅与“味增”一起提示“马铃薯”时,将仅是感觉到这些是奇妙的食材的组合,不会产生在购买“味增”时顺便购买“马铃薯”的购买欲望。因此,认为在提示第2商品时,如果一并提示包括与第1商品和第2商品的组合效果相关的信息的推荐理由,将有助于提高基于配套型推荐的促销效果。
但是,在此前的EC系统中,即使具有提示有关商品单体的推荐理由的组合(例如预览显示功能等),也不具有提示包括与多个商品的组合效果相关的信息在内的推荐理由的组合。因此,需要构建这种提示包括有关组合效果的信息的推荐理由的组合。
发明内容
本发明要解决的问题是提供如下信息提示装置、信息提示方法及记录介质,能够适当提示包括与第1商品和第2商品的组合效果相关的信息的推荐理由,提高基于配套型推荐的促销效果。
实施方式的信息提示装置在推荐与用户参照的第1商品配套的第2商品时,提示包括与所述第1商品和所述第2商品的组合效果相关的信息的推荐理由,具有第1分数计算部、第2分数计算部、第3分数计算部、整合分数计算部、以及提示部。第1分数计算部从检索对象的文件组中抽取有关所述第1商品的第1文件组,对该第1文件组中包含的各个单词分别计算表示与所述第1商品的关联性的第1分数。第2分数计算部从检索对象的文件组中抽取有关所述第2商品的第2文件组,对该第2文件组中包含的各个单词分别计算表示与所述第2商品的关联性的第2分数。第3分数计算部从检索对象的文件组中抽取有关所述第1商品和所述第2商品双方的第3文件组,对该第3文件组中包含的各个单词分别计算表示与所述第1商品及所述第2商品双方的关联性的第3分数。整合分数计算部对所述第3文件组中包含的各个单词分别从所述第3分数减去所述第1分数和所述第2分数,计算整合分数。提示部将根据所述整合分数按照规定的基准选择的一个以上的重要单词、或者包含该重要单词的所述第3文件组中的一个以上的文本的至少一方,作为所述推荐理由进行提示。
根据上述构成的信息提示装置,能够适当提示包括与第1商品及第2商品的组合效果相关的信息的推荐理由,提高基于配套型推荐的促销效果。
附图说明
图1是表示第1实施方式的信息提示装置的结构例的图。
图2是表示A文件组抽取器的处理步骤的流程图。
图3是表示在单词的表述规范化中使用的同义词辞典的一例的图。
图4是表示总文件组抽取器的处理步骤的流程图。
图5是表示单词关联度评价器的处理步骤的流程图。
图6是表示单词重要度评价器的处理步骤的流程图。
图7是表示整合分数计算部的处理步骤的流程图。
图8是表示固有语句输出器的处理步骤的流程图。
图9是表示第2实施方式的信息提示装置的结构例的图。
图10是表示A文件组抽取器的处理步骤的流程图。
图11是表示A∩B文件组抽取器的处理步骤的流程图。
图12是说明A∩B文件组抽取器的判定例的图。
图13是表示单词关联度评价器的处理步骤的流程图。
图14是表示信息提示装置的硬件结构例的框图。
具体实施方式
下面,参照附图详细地说明实施方式的信息提示装置、信息提示方法及记录介质。
实施方式的信息提示装置在推荐与用户参照的第1商品配套的第2商品时,提示包括与第1商品和第2商品的组合效果相关的信息的推荐理由。预先对所有的商品的组合人工作成这种推荐理由是很困难的。但是,有关商品的组合效果的信息例如存在于各种Web页面、SNS(SocialNetworking Service)、博客等的文件组中。因此,在本实施方式中,从这样的文件组中找出与两种商品相关的文件组,再确定适合的提及部分作为商品的组合效果等的推荐理由提示给用户。另外,下面为了简化说明,将第1商品称为商品A,将具有第1商品的相关记载的文件称为A文件,将第2商品称为商品B,将具有第2商品的相关记载的文件称为B文件,将具有与第1商品及第2商品双方相关的记载的文件称为A∩B文件。
<第1实施方式>
首先,说明第1实施方式的信息提示装置。图1是表示第1实施方式的信息提示装置的结构例的图。本实施方式的信息提示装置如图1所示具有第1分数计算部10、第2分数计算部20、第3分数计算部30、第4分数计算部40、整合分数计算部50和提示部60,将从文件DB(Database)100取得的包括与第1商品和第2商品的组合效果相关的信息的推荐理由显示在画面200中,并提示给利用EC系统的服务的用户。另外,假设本实施方式的信息提示装置是作为EC系统的功能一部分实现的,但不限于此,例如也可以构成为与EC系统联动地进行动作的独立的系统或者装置。
文件DB100在本实施方式中是作为检索对象的任意的文件组,假设是各种的Web页面、SNS、博客等。另外,假设画面200是在利用EC系统的服务的用户的终端装置显示的画面,通常是在搭载Web浏览器的终端装置显示的Web画面。
第1分数计算部10包括A文件组抽取器11和单词关联度评价器12。
A文件组抽取器11对文件DB100进行单词基准的检索,从文件DB100中将具有商品A的相关记载的A文件全部抽取得到A文件组15。
单词关联度评价器12作成A文件组15中的各个单词的直方图(列举每个单词的频次的数据),对各个单词分别计算与A文件组15中的出现频次对应的第1分数。另外,各个单词使用辞典来吸收全角/半角、日英、送假名等的表述不统一。另外,把通过将各个单词的出现频次除以总单词数使数值规范化,并取log对数得到的值作为第1分数。因此,第1分数是负的值,对在A文件组15中的出现频次越高的单词,赋值越接近0的较高的值的第1分数。
第2分数计算部20包括B文件组抽取器21和单词关联度评价器22。
B文件组抽取器21对文件DB100进行单词基准的检索,从文件DB100中将具有商品B的相关记载的B文件全部抽取得到B文件组25。
单词关联度评价器22作成B文件组25中的各个单词的直方图,对各个单词分别计算与B文件组25中的出现频次对应的第2分数。另外,各个单词使用辞典来吸收全角/半角、日英、送假名等的表述不统一。另外,把通过将各个单词的出现频次除以总单词数使数值规范化,并取log对数得到的值作为第2分数。因此,第2分数是负的值,对在B文件组25中的出现频次越高的单词,赋值越接近0的较高的值的第2分数。
第3分数计算部30包括A∩B文件组抽取器31和单词关联度评价器32。
A∩B文件组抽取器31对文件DB100进行单词基准的检索,从文件DB100中将具有关于商品A和商品B双方的记载的A∩B文件全部抽取得到A∩B文件组35。
单词关联度评价器32作成A∩B文件组35中的各个单词的直方图,对各个单词分别计算与A∩B文件组35中的出现频次对应的第3分数。另外,各个单词使用辞典来吸收全角/半角、日英、送假名等的表述不统一。另外,把通过将各个单词的出现频次除以总单词数使数值规范化,并取log对数得到的值作为第3分数。因此,第3分数是负的值,对在A∩B文件组中的出现频次越高的单词,赋值越接近0的较高的值的第3分数。
第4分数计算部40包括总文件组抽取器41和单词重要度评价器42。
总文件组抽取器41从文件DB100中抽取全部文件得到总文件组45。
单词重要度评价器42作成总文件组45中包含各个单词的文件数的直方图,对各个单词分别计算与总文件组45中包含该单词的文件的出现频次对应的第4分数。另外,各个单词使用辞典来吸收全角/半角、日英、送假名等的表述不统一。另外,把通过将包含各个单词的文件的出现频次除以总文件数使数值规范化,并取log对数再使正负反转得到的值作为第4分数。因此,第4分数是正的值,在包含该单词的文件的出现频次越低时,赋值越高的值的第4分数。
整合分数计算部50对A∩B文件组35中包含的各个单词分别使用第3分数、第1分数、第2分数、第4分数,通过使用后述的式(1)的计算来算出整合分数。整合分数是表示针对与商品A和商品B双方相关的话题的固有性的指标,对针对与商品A和商品B双方相关的话题的固有性越高的单词,赋值越高的值的整合分数。
提示部60包括固有词语输出器61和固有语句输出器62。
固有词语输出器61根据整合分数选择针对与商品A和商品B双方相关的话题的固有性较高的一个以上的重要单词(固有词语),并作为单词基准的推荐理由65输出在画面200中。在推荐理由可以仅是单词的情况下,该固有词语输出器61输出的单词基准的推荐理由65被显示在画面200中。
固有语句输出器62从A∩B文件组35中选择一个以上的语句,并作为语句基准的推荐理由66输出在画面200中,该语句具有通过固有词语输出器61选择的多个重要单词(固有词语)。在要求推荐理由是语句的情况下,该固有语句输出器62输出的语句基准的推荐理由66被显示在画面200中。另外,也可以在画面200中显示固有词语输出器61输出的单词基准的推荐理由65和固有语句输出器62输出的语句基准的推荐理由66双方。
另外,在本实施方式中,将固有语句输出器62的处理单位设为语句,但固有语句输出器62也可以将短语、章节、段落等作为处理单位,而不是语句。在这种情况下,仅仅是固有语句输出器62的处理单位变化,能够通过同样的处理将期望的文本作为推荐理由显示在画面200中。
下面,说明构成本实施方式的信息提示装置的上述各个部分的处理步骤的详细情况。
首先,说明A文件组抽取器11的处理步骤。A文件组抽取器11的处理的目的在于,从文件DB100中找出所有的A文件。A文件的抽取例如能够使用以往的方法通过单词基准的检索来进行。在通常的检索处理中,通常使用预先作成检索对象的文件组的索引的处理方式。但是,在本实施方式中为了简化说明,使用不作成索引就进行检索的grep方式。
图2是表示A文件组抽取器11的处理步骤的流程图。A文件组抽取器11首先从有关A商品的元数据中抽取商品名称,将该商品名称作为检索的请求(步骤S101)。
然后,A文件组抽取器11进行请求的表述规范化(步骤S102)。具体地讲,A文件组抽取器11首先吸收请求的表述不统一(半角/全角、日英、送假名等),再使用如图3所示的同义词辞典将请求(此处指商品A的商品名称)置换为代表性表述。例如,请求“スマホ(智能手机)”被置换为“スマートフォン(智能手机)”、请求“笔记本”被置换为“PC”。
然后,A文件组抽取器11从文件DB100抽取一个文件(步骤S103)。并且,A文件组抽取器11对在步骤S103抽取的文件中包含的各个单词,利用与步骤S102相同的方法进行表述规范化(步骤S104)。
然后,A文件组抽取器11确认在通过步骤S104进行了单词的表述规范化的文件中是否包含在步骤S102进行了表述规范化的请求(即商品A的商品名称),如果包含进行了表述规范化的请求,则在所输出的A文件组15中追加该文件(步骤S105)。
然后,A文件组抽取器11判定是否存在未从文件DB100抽取的文件(步骤S106),如果存在未从文件DB100抽取的文件(步骤S106:是),返回到步骤S103并反复以后的处理。另一方面,如果对文件DB100的所有文件进行了步骤S103~步骤S105的处理(步骤S106:否),A文件组抽取器11输出A文件组15(步骤S107),结束一系列的处理。
B文件组抽取器21的处理的目的在于从文件DB100中找出所有的B文件。B文件的抽取与A文件的抽取一样是通过单词基准的检索来进行的。B文件组抽取器21的处理与上述的A文件组抽取器11的处理一样,仅仅将在检索中使用的请求置换为商品B的商品名称,所输出的文件组成为B文件组25,因而省略详细的说明。
A∩B文件组抽取器31的处理的目的在于从文件DB100中找出所有的A∩B文件。A∩B文件的抽取与A文件和B文件的抽取一样是通过单词基准的检索来进行的。A∩B文件组抽取器31的处理与上述的A文件组抽取器11和B文件组抽取器21的处理一样,仅仅是在检索中使用的请求成为商品A的商品名称和商品B的商品名称的和条件,所输出的文件组成为A∩B文件组35,因而省略详细的说明。
总文件组抽取器41的处理的目的在于,从文件DB100中抽取全部文件,并为了后续处理而进行各个文件中包含的各个单词的表述规范化。
图4是表示总文件组抽取器41的处理步骤的流程图。总文件组抽取器41首先从文件DB100中抽取一个文件(步骤S201)。并且,总文件组抽取器41对在步骤S201抽取的文件中包含的各个单词,利用与图2的步骤S102相同的方法进行表述规范化(步骤S202),在所输出的总文件组45中追加该文件(步骤S203)。
然后,总文件组抽取器41判定是否存在未从文件DB100抽取的文件(步骤S204),如果存在未从文件DB100抽取的文件(步骤S204:是),返回到步骤S201并反复以后的处理。另一方面,如果对文件DB100的所有文件进行了步骤S201~步骤S203的处理(步骤S204:否),总文件组抽取器41输出总文件组45(步骤S205),结束一系列的处理。
下面,说明单词关联度评价器12的处理步骤。单词关联度评价器12的处理的目的在于,对A文件组15中包含的各个单词计算表示与商品A的关联性的第1分数。在本实施方式中,将A文件组15中的各个单词的出现次数除以总单词数并变换成log对数,由此求出各个单词的对数概率,将该对数概率作为第1分数。这可以说等同于计测每单位文本量的各个单词的频次,将在信息检索中经常使用的指标即tf(termfrequency)规范化。
图5是表示单词关联度评价器12的处理步骤的流程图。单词关联度评价器12首先将统计各个单词的出现次数用的统计用直方图初始化(步骤S301)。
然后,单词关联度评价器12从A文件组15中抽取一个文件(步骤S302)。并且,单词关联度评价器12作成在步骤S302抽取的文件中包含的单词的直方图(步骤S303),将所得到的直方图与统计用直方图相加(步骤S304)。
然后,单词关联度评价器12判定是否存在未从A文件组15抽取的文件(步骤S305),如果存在未从A文件组15抽取的文件(步骤S305:是),返回到步骤S302并反复以后的处理。另一方面,如果对A文件组15的所有文件进行了步骤S302~步骤S304的处理(步骤S305:否),单词关联度评价器12根据统计用直方图算出各个单词的对数概率(步骤S306)。具体地讲,在设统计用直方图示出的各个单词的频次为x、设A文件组15中的总单词数为y时,对数概率为log(x/y)。并且,单词关联度评价器12将在步骤S306计算出的各个单词的对数概率作为各个单词的第1分数进行输出(步骤S307),结束一系列的处理。另外,在x=0的情况下,对数概率为-∞。由于∞和-∞在计算机中不能直接使用,因而考虑用极端大的值和极端小的值代用的方法。以后在处理∞和-∞时采用相同的方法即可。
单词关联度评价器22的处理的目的在于,对B文件组25中包含的各个单词,计算表示与商品B的关联性的第2分数。第2分数与第1分数一样是B文件组25中包含的各个单词的对数概率。单词关联度评价器22的处理与上述的单词关联度评价器12的处理一样,仅仅将所输出的文件组置换为B文件组25,将B文件组25中包含的各个单词的对数概率作为第2分数进行输出,因而省略详细说明。
单词关联度评价器32的处理的目的在于,对A∩B文件组35中包含的各个单词,计算表示与商品A及商品B双方的关联性的第3分数。第3分数与第1分数和第2分数一样是A∩B文件组35中包含的各个单词的对数概率。单词关联度评价器32的处理与上述的单词关联度评价器12的处理一样,仅仅将所输出的文件组置换为A∩B文件组35,将A∩B文件组35中包含的各个单词的对数概率作为第3分数进行输出,因而省略详细说明。
下面,说明单词重要度评价器42的处理步骤。单词重要度评价器42的处理的目的在于,计算表示文件DB100内的各个单词具有的一般重要性的第4分数。在本实施方式中,求出在信息检索等中经常使用的idf(Inverse Document Frequency)作为单词的重要性的指标,将其作为各个单词的第4分数。某单词的idf表示包含该单词的文件的负的对数概率。即,在设包含该单词的文件数为x、设总文件数为y时,idf=-log(x/y)。通常,认为轻易不出现的单词(即出现概率较低的单词)在出现时提供给读者的信息量许多都很重要,在这种情况下,idf示出较高的值。
图6是表示单词重要度评价器42的处理步骤的流程图。单词重要度评价器42首先将统计各个单词的出现次数用的统计用直方图初始化(步骤S401)。
然后,单词重要度评价器42从总文件组45中抽取一个文件(步骤S402)。并且,单词重要度评价器42作成在步骤S402抽取的文件中包含的单词的2值直方图(步骤S403),将所得到的直方图与统计用直方图相加(步骤S404)。2值直方图是只具有1或0的频次值的直方图,与出现次数无关,对在文件中出现的单词都赋值1。
然后,单词重要度评价器42判定是否存在未从总文件组45抽取的文件(步骤S405),如果存在未从总文件组45抽取的文件(步骤S405:是),返回到步骤S402并反复以后的处理。另一方面,如果对总文件组45的所有文件进行了步骤S402~步骤S404的处理(步骤S405:否),单词重要度评价器42根据统计用直方图算出包含各个单词的文件的负的对数概率(步骤S406)。具体地讲,在设统计用直方图示出的各个单词的频次为x、设总文件组45中的总文件数为y时,负的对数概率为-log(x/y)。并且,单词重要度评价器42将对各个单词分别在步骤S406计算出的包含该单词的文件的负的对数概率作为各个单词的第4分数进行输出(步骤S407),结束一系列的处理。
下面,说明整合分数计算部50的处理步骤。整合分数计算部50的处理的目的在于,对于A∩B文件组35中的各个单词计算整合分数,该整合分数成为表示针对与商品A和商品B双方相关的话题的固有性(即,是否是仅在A∩B文件组35中明显出现的单词的程度)的指标。由此,能够找出与有关商品A和商品B的组合的说明相称的单词。
在本实施方式中,假设在整合分数的计算中使用下述式(1)。其中,下述式(1)中的w表示单词,ntf(w)表示所输出的文件组中的单词w的对数概率,idf表示总文件组45中包含单词w的文件的负的对数概率。
[数式1]
(ntfA∩B(w)·2-ntfA(w)-ntfB(w))*idf(w)…(1)
式(1)的第1项表示A∩B文件组35中的单词w的对数概率,相当于单词关联度评价器32输出的第3分数。在该第1项的值(第3分数)越高时,表示该单词w在A∩B文件组35中出现得越多。
式(1)的第2项表示A文件组15中的单词w的对数概率,相当于单词关联度评价器12输出的第1分数。在该第2项的值(第1分数)越高时,表示该单词w在A文件组15中出现得越多。
式(1)的第3项表示B文件组25中的单词w的对数概率,相当于单词关联度评价器22输出的第2分数。在该第3项的值(第2分数)越高时,表示该单词w在B文件组25中出现得越多。
式(1)的第4项表示总文件组45中的单词w的稀少性,相当于单词重要度评价器42输出的第4分数。在该第4项的值(第4分数)越高时,表示该单词w具有稀少性,是出现时的信息量许多都很重要的单词。
式(1)成为从第1项减去第2项及第3项来求出整合分数的计算式。由此,对于在A∩B文件组35中出现较多、而且在A文件组15和B文件组25中不怎么出现的单词,赋值较高的值的整合分数。基于此,认为整合分数不是商品A和商品B的单项说明,而是表示适合于涵盖两种商品的说明的程度。另外,将第1项设为2倍是因为从第1项减去的项有两个。虽然认为在A∩B文件组35、A文件组15、B文件组25中分别以相同频次出现的单词的固有性是0,但是通过如式(1)所示将第1项设为2倍,能够将这种情况时的整合分数设为0。但是,将第1项设为2倍不是必须的,也可以不将第1项设为2倍,而是减去第2项及第3项。
另外,式(1)成为将从第1项减去第2项及第3项得到的值与第4项相乘来求出整合分数的计算式。由此,得到考虑了各个单词的普通观点的重要性的整合分数。即,在A文件组15的文件数、B文件组25的文件数及A∩B文件组35的文件数不充足的情况下,在不乘以第4项就计算各个单词的整合分数时,存在整合分数过度适应的风险,而通过乘以第4项,能够避免该风险。但是,第4项的相乘不是必须的,也可以不乘以第4项而计算整合分数。
图7是表示整合分数计算部50的处理步骤的流程图。整合分数计算部50首先从A∩B文件组35中抽取一个单词(步骤S501)。
然后,整合分数计算部50对于在步骤S501抽取的单词,将单词关联度评价器32输出的第3分数的值应用于式(1)的第1项(步骤S502)。
然后,整合分数计算部50对于在步骤S501抽取的单词,将单词关联度评价器12输出的第1分数的值应用于式(1)的第2项(步骤S503)。
然后,整合分数计算部50对于在步骤S501抽取的单词,将单词关联度评价器22输出的第2分数的值应用于式(1)的第3项(步骤S504)。
然后,整合分数计算部50对于在步骤S501抽取的单词,将单词重要度评价器42输出的第4分数的值应用于式(1)的第4项(步骤S505)。
然后,整合分数计算部50使用式(1)计算在步骤S501抽取的单词的整合分数(步骤S506)。
然后,整合分数计算部50判定是否存在未从A∩B文件组35抽取的单词(步骤S507),如果存在未从A∩B文件组35抽取的单词(步骤S507:是),返回到步骤S501并重复以后的处理。另一方面,如果对A∩B文件组35中包含的所有单词进行了步骤S501~步骤S506的处理(步骤S507:否),整合分数计算部50输出各个单词的整合分数(步骤S508),结束一系列的处理。
下面,说明固有词语输出器61的处理步骤。固有词语输出器61的处理的目的在于,选择A∩B文件组35中包含的单词中、针对与商品A和商品B双方相关的话题的固有性较高的单词(固有词语),并作为重要单词进行输出。在本实施方式中,将A∩B文件组35中包含的单词中整合分数较高的上位k个单词作为重要单词进行输出。
即,固有词语输出器61将从整合分数计算部50输出的整合分数按照值从高到低的顺序排序,按照整合分数的值从高到低的顺序选择上述k个的单词作为重要单词进行输出。在B商品的推荐理由仅是单词的情况下,该固有词语输出器61输出的重要单词作为单词基准的推荐理由65被显示在画面200中。另外,在请求将推荐理由设为语句的情况下,将固有词语输出器61输出的重要单词转发给固有语句输出器62。
下面,说明固有语句输出器62的处理步骤。固有语句输出器62的处理的目的在于,从A∩B文件组35中找出包含较多重要单词的语句,并作为语句基准的推荐理由66输出在画面200中。在本实施方式中,找出包含最多的重要单词的A∩B文件组35中的语句作为最佳语句,并作为语句基准的推荐理由66输出在画面200中。另外,如上所述也可以替代语句,而将短语、章节、段落等作为推荐理由显示在画面200中。
图8是表示固有语句输出器62的处理步骤的流程图。固有语句输出器62首先将最佳语句及最佳分数初始化(步骤S601)。即,将作为语句基准的推荐理由66而最后输出的最佳语句设为空白语句,将该最佳语句中包含的各个单词的整合分数的合计值即最佳分数设为-∞。
然后,固有语句输出器62从A∩B文件组35中抽取一个语句(步骤S602)。并且,固有语句输出器62把将在步骤S602抽取的语句中包含的各个单词的整合分数进行合计得到的分数作为该语句的分数(步骤S603)。
然后,固有语句输出器62确认在步骤S603求出的语句的分数是否超过最佳分数,如果超过最佳分数,将最佳语句及最佳分数置换为该语句和该分数(步骤S604)。
然后,固有语句输出器62判定是否存在未从A∩B文件组35抽取的语句(步骤S605),如果存在未从A∩B文件组35抽取的语句(步骤S605:是),返回到步骤S602并重复以后的处理。另一方面,如果对A∩B文件组35中包含的所有的语句进行了步骤S602~步骤S604的处理(步骤S605:否),固有语句输出器62将最佳语句作为语句基准的推荐理由66进行输出(步骤S606),结束一系列的处理。
如以上列举具体例子说明的那样,根据本实施方式的信息提示装置,确定针对与商品A和商品B双方相关的话题的固有性较高的单词或者包含该单词的语句,作为单词基准的推荐理由65或者语句基准的推荐理由66显示在画面200中。因此,通过使用该信息提示装置,能够对利用EC系统的用户适当提示包括与商品A和商品B的组合效果相关的信息的推荐理由,提高基于配套型推荐的促销效果。即,对于利用EC系统的用户而言,通过参照利用本实施方式的信息提示装置提示的推荐理由,能够产生购买B商品的动机,容易进行伴随新体验的购物,而对于店铺而言则增加销售机会。
<第2实施方式>
下面,说明第2实施方式的信息提示装置。在本实施方式中,使用事前预测对某种商品记载了利用EC系统的用户的评价记录等的文件作为检索对象的文件组。EC系统往往按照商品页面管理用户的评价记录。这种评价记录是记载了对各种商品的感受等的文件,因而能够有效地用作找出推荐理由用的对象。另外,将各条评价记录作为元数据与评价对象的商品ID(商品识别信息)及记载了评价记录的用户的购买日志关联起来。下面,将商品ID和购买日志被关联起来的评价记录称为带标签文件。
在第1实施方式中,将普通的文件作为检索对象,因而作为检索A文件、B文件、A∩B文件的线索,采用文件内是否含有商品名称。与此相对,在本实施方式中,采取使用对作为检索对象的各文件赋予的评价对象的商品ID(在评价记录与商品名称相关联的情况下也可以是商品名称)进行检索的方法。因此,除能够排除文件检索错误(在第1实施方式中存在基于表述不统一等的错误的风险)以外,具有如下优点:即使是如单纯的“好吃!还会买”等这样不包含商品名称的文件,通过使用元数据即可容易进行分类。另外,与文件相关联的商品ID是一个,因而不需要为判定A∩B文件而下功夫。因此,在本实施方式中,根据如下的假设来确定A∩B文件,即,在近期购买了商品A和商品B两种商品的用户在从购买这些商品起较近的时期记载的评价记录,是包含提及到两种商品的评价记录的可能性比较大。
图9是表示第2实施方式的信息提示装置的结构例的图。第2实施方式的信息提示装置如图9所示具有第1分数计算部70、第2分数计算部80及第3分数计算部90,替代第1实施方式的第1分数计算部10、第2分数计算部20及第3分数计算部30(参照图1)。另外,第2实施方式的信息提示装置使用带标签文件DB300替代第1实施方式的文件DB100(参照图1),作为检索对象的文件集合。带标签文件DB300如上所述例如是利用EC系统的用户进行的评价记录的集合,各条评价记录与商品ID及购买日志400相关联。另外,第2实施方式的信息提示装置的其它结构与上述的第1实施方式相同,因而下面对与第1实施方式相同的构成要素标注相同的标号,并适当省略重复的说明。
第1分数计算部70包括A文件组抽取器71和单词关联度评价器12。A文件组抽取器71使用商品A的商品ID进行对带标签文件DB300的检索,从带标签文件DB300中抽取所有的A文件得到A文件组15。单词关联度评价器12与第1实施方式相同。
第2分数计算部80包括B文件组抽取器81和单词关联度评价器22。B文件组抽取器81使用商品B的商品ID进行对带标签文件DB300的检索,从带标签文件DB300中抽取所有的B文件得到B文件组25。单词关联度评价器22与第1实施方式相同。
第3分数计算部90包括A∩B文件组抽取器91和单词关联度评价器92。
A∩B文件组抽取器91使用商品A的商品ID和商品B的商品ID进行对带标签文件DB300的检索,从带标签文件DB300中抽取A∩B文件得到带可信度A∩B文件组95。此处从带标签文件DB300中抽取的A∩B文件是根据上述的假设而抽取的评价记录等的带标签文件,对该文件赋予了包含与商品A和商品B双方相关的记述的可信度。
单词关联度评价器92与第1实施方式的关联度评价器32一样,对带可信度A∩B文件组95中包含的各个单词分别计算与出现频次对应的第3分数。另外,在本实施方式中,对A∩B文件分别赋予了包含与商品A和商品B双方相关的记述的可信度,各个单词的频次是使用该单词出现的文件的可信度计算出来的,这一点与第1实施方式不同。
下面,说明在本实施方式的信息提示装置中与第1实施方式不同的部分的处理步骤的详细情况。
首先,说明A文件组抽取器71的处理步骤。A文件组抽取器71的处理的目的在于从带标签文件DB300中抽取所有的A文件。
图10是表示A文件组抽取器71的处理步骤的流程图。A文件组抽取器71首先从有关A商品的元数据中抽取A商品的商品ID,将其作为检索的请求(步骤S701)。
然后,A文件组抽取器71从带标签文件DB300中抽取一个文件(步骤S702)。并且,A文件组抽取器71确认在步骤S701抽取的文件的标签是否与请求的商品ID一致,如果一致,则在输出的A文件组15中追加该文件(步骤S703)。
然后,A文件组抽取器71判定是否存在未从带标签文件DB300抽取的文件(步骤S704),如果存在从带标签文件DB300抽取的文件(步骤S704:是),返回到步骤S702并反复以后的处理。另一方面,如果对带标签文件DB300中的所有文件进行了步骤S702及步骤S703的处理(步骤S704:否),A文件组抽取器71输出A文件组15(步骤S705),结束一系列的处理。
B文件组抽取器81的处理的目的在于从带标签文件DB300中抽取所有的B文件。B文件组抽取器81的处理与上述的A文件组抽取器71的处理一样,仅仅将在检索中使用的请求置换为商品B的商品ID,所输出的文件组成为B文件组25,因而省略详细的说明。
下面,说明A∩B文件组抽取器91的处理步骤。A∩B文件组抽取器91的处理的目的在于,从带标签文件DB300中找出A∩B文件。带标签文件DB300中的各个带标签文件只与一个商品ID相关联,因而不能仅根据元数据判定该带标签文件是否包含与商品A和商品B双方相关的记述。在此改变视角,同时或者在较近的时期购买了商品A和商品B的用户对两种商品的组合具有意图,这样的用户在与其较近的时期记载的评价文件,被认为包含有关两种商品的组合的记述的可能性比较大。因此,在本实施方式中,使用购买日志400选择适合于该假设的用户,从该用户记载的评价记录中抽取适合于该假设的评价记录作为A∩B文件。另外,对这样抽取的A∩B文件组赋予包含与商品A和商品B双方相关的记述的可信度,得到带可信度A∩B文件组95。
图11是表示A∩B文件组抽取器91的处理步骤的流程图。A∩B文件组抽取器91首先从购买日志400中选择一名用户(步骤S801)。
然后,A∩B文件组抽取器91将表示在步骤S801选择的用户在规定的第1期间内购买了商品A和商品B的购买日志的对全部抽取出来(步骤S802)。此时的判定例在图12(a)中示出。在将上述的第1期间设为2天时,如图12(a)的判定例1所示,用户X的购买日志中“11/715:20购买商品A”和“11/7 18:20购买商品B”的对,由于购买两种商品的时间差在2天以内,因而在步骤S802的处理中被抽取出来。另一方面,“11/7 18:20购买商品B”和“11/10 9:50购买商品A”的对,由于购买两种商品的时间差超过2天,因而在步骤S802的处理中未被抽取出来。下面,将该购买日志的对的购买时刻的时间差称为“购买时间差”。
然后,A∩B文件组抽取器91抽取在步骤S802抽取出来的一个购买日志的对(步骤S803)。另外,A∩B文件组抽取器91将在步骤S801选择的用户在从通过步骤S803抽取的购买日志的对所示出的购买时刻中较晚一方的购买时刻起规定的第2期间内记载的、具有商品A或者商品B的商品ID作为标签的文件(评价记录),从带标签文件DB300中全部抽取出来(步骤S804)。
此时的判定例在图12(b)中示出。在将上述的第2期间设为3天时,如图12(b)的判定例2所示,用户X记载的评价记录中“11/9 12:00商品A评价记录”是在从“11/7 18:20购买商品B”的购买日志的购买时刻起3天以内记载的评价记录,因而在步骤S804的处理中被抽取出来。另一方面,“11/11 12:00商品A评价记录”是在从“11/7 18:20购买商品B”的购买日志的购买时刻起经过了3天以后记载的评价记录,因而在步骤S804的处理中未被抽取出来。下面,将该购买日志的购买时刻与评价记载时刻的时间差称为“评价时间差”。
然后,A∩B文件组抽取器91对在步骤S804抽取的各个文件分配与在步骤S803抽取的购买日志的对的购买时间差对应的可信度(步骤S805)。例如,在购买时间差越大时赋予越低的值的可信度,如将购买日志的对是通过相同的话务购买的情况的可信度设为100%,将是在1小时以内购买的情况的可信度设为90%,将是在2小时以内购买的情况的可信度设为80%,将是在同日购买的情况的可信度设为50%。另外,在本实施方式中,对从带标签文件DB300中抽取的文件赋予与成为抽取该文件的原因的购买日志的对的购买时间差对应的可信度,但赋予可信度的方法不限于此。例如,对于从带标签文件DB300中抽取的文件,也可以在评价时间差越大时,赋予越低的值的可信度,还可以赋予考虑了购买时间差和评价时间差双方的可信度。
然后,A∩B文件组抽取器91将通过步骤S805的处理得到的带可信度文件追加在所输出的带可信度A∩B文件组95中(步骤S806)。
然后,A∩B文件组抽取器91判定是否存在在步骤S803未被抽取的购买日志的对(步骤S807),如果存在未被抽取的购买日志的对(步骤S807:是),返回到步骤S803并反复以后的处理。另一方面,如果对所有购买日志的对进行了步骤S803~步骤S806的处理(步骤S807:否),A∩B文件组抽取器91判定是否存在在步骤S801未被选择的用户(步骤S808),如果存在未被选择的用户(步骤S808:是),返回到步骤S801并反复以后的处理。
另一方面,如果选择了购买日志中包含的所有用户并且进行了步骤S802~步骤S806的处理(步骤S808:否),A∩B文件组抽取器91输出带可信度A∩B文件组95(步骤S809),结束一系列的处理。
下面,说明单词关联度评价器92的处理步骤。单词关联度评价器92的处理的目的在于,与第1实施方式的单词关联度评价器32一样,对带可信度A∩B文件组95中包含的各个单词分别计算表示与商品A及商品B双方的关联性的第3分数。另外,对A∩B文件赋予可信度,因而随之而来的处理与第1实施方式的单词关联度评价器32不同。
图13是表示单词关联度评价器92的处理步骤的流程图。单词关联度评价器92首先将统计各个单词的出现次数用的统计用直方图及总单词数初始化(步骤S901)。总单词数是如后面所述根据文件的可信度调整带可信度A∩B文件组95中包含的总单词数而得的值。
然后,单词关联度评价器92从带可信度A∩B文件组95中抽取一个文件(步骤S902)。并且,单词关联度评价器92作成在步骤S902抽取的文件中包含的单词的直方图(步骤S903)。另外,假设此时赋予给各个单词的频次是将实际的频次与可信度相乘得到的值。例如,在可信度为50%的文件中,在单词出现10次、单词B出现6次、单词C出现4次时,赋予给单词A的频次是5次,赋予给单词B的频次是3次,赋予给单词C的频次是2次。
然后,单词关联度评价器92将在步骤S903得到的直方图与统计用直方图相加(步骤S904)。并且,单词关联度评价器92将对该文件的单词数与可信度相乘得到的值与总单词数相加(步骤S905)。例如,如果该文件的单词数是1000、可信度是50%,则相加后的单词数是500。
然后,单词关联度评价器92判定是否存在未从带可信度A∩B文件组95抽取的文件(步骤S906),如果存在未从带可信度A∩B文件组95抽取的文件(步骤S906:是),返回到步骤S902并反复以后的处理。另一方面,如果对带可信度A∩B文件组95中的所有文件进行了步骤S902~步骤S905的处理(步骤S906:否),单词关联度评价器92根据统计用直方图算出各个单词的对数概率(步骤S907)。具体地讲,在设统计用直方图示出的各个单词的频次为x、设带可信度A∩B文件组95中的总单词数(在步骤S905相加得到的总单词数)为y时,对数概率为log(x/y)。并且,单词关联度评价器92将在步骤S907计算出的各个单词的对数概率作为各个单词的第3分数进行输出(步骤S908),结束一系列的处理。
另外,在单词关联度评价器92中,在采用根据与上述的购买时间差和评价时间差对应的可信度进行处理的方法的情况下,当在A∩B文件组抽取器91中抽取A∩B文件组时,不一定进行使用第1期间和第2期间的阈值处理。因为如果在A∩B文件组抽取器91中不进行阈值处理,则具有非常大的购买时间差和评价时间差的评价记录也被抽取,这样的评价记录将被赋予非常小的可信度。如果不进行阈值处理,则抽取的评价记录增加,因而计算量增大,但是能够避免因阈值处理而引起的评价记录的意外的不利结果。
本实施方式的信息提示装置的其它处理与上述的第1实施方式相同。即,在本实施方式的信息提示装置中,通过整合分数计算部50对带可信度A∩B文件组95中包含的各个单词计算整合分数,通过固有词语输出器61将整合分数较高的重要单词作为单词基准的推荐理由65输出在画面200中,通过固有语句输出器62将包含较多重要单词的语句作为语句基准的推荐理由66输出在画面200中。
因此,通过使用本实施方式的信息提示装置,能够对利用EC系统的用户适当提示包括与商品A和商品B的组合效果相关的信息的推荐理由,提高基于配套型推荐的促销效果。即,对于利用EC系统的用户而言,通过参照利用本实施方式的信息提示装置提示的推荐理由,能够产生购买B商品的动机,容易进行伴随新体验的购物,而对于店铺而言则增加销售机会。
以上说明的第1实施方式或者第2实施方式的信息提示装置的上述各种功能,例如能够通过在信息提示装置中执行规定的程序来实现。在这种情况下,信息提示装置例如能够实现为采用通常的计算机的硬件结构,该计算机具有如图14所示的CPU(CentralProcessing Unit)510等处理器、ROM(Read Only Memory)520和RAM(Random AccessMemory)530等存储装置、与显示器和各种操作器件连接的输入输出I/F540、与网络连接并进行通信的通信I/F550、连接各部分的总线560等。
在上述的信息提示装置中执行的程序例如以可安装的形式或者可执行的形式的文件记录在计算机可读的记录介质中,并作为计算机程序产品进行提供,该记录介质有CD-ROM(Compact Disk Read Only Memory)、软盘(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等。
另外,也可以构成为,将在上述的信息提示装置中执行的程序存储在与因特网等网络连接的计算机中,经由网络进行下载来提供。此外,也可以构成为,将在本实施方式的信息提示装置中执行的程序经由因特网等网络进行提供或者颁布。
另外,也可以构成为,将在上述的信息提示装置中执行的程序预先装配在ROM520等中进行提供。
在上述的信息提示装置中执行的程序形成为包括信息提示装置的各处理部(第1分数计算部10、70、第2分数计算部20、80、第3分数计算部30、90、第4分数计算部40、整合分数计算部50及提示部60)的模块结构,作为实际的硬件,例如通过由CPU510(处理器)从上述记录介质读出程序并执行,将上述的各处理部安装在RAM530(主存储器)中,在RAM530(主存储器)中生成上述的各处理部。另外,实施方式的信息提示装置也能够使用ASIC(Application Specific Integrated Circuit:专用集成电路)和FPGA(FieldProgrammable Gate Array:可现场编程门阵列)等专用的硬件实现上述的各处理部的一部分或者全部。
以上说明了本发明的实施方式,但这里说明的实施方式仅是作为示例而示出的,不能理解为限定发明的范围。这里说明的新的实施方式可以通过其他各种方式实现,在不脱离发明的宗旨的范围下可以进行各种省略、替换和变更。这里说明的实施方式及其变形包含在发明的范围和宗旨中,并且包含在权利要求书所记载的发明及其同等的范围中。
以上叙述的至少一个实施方式的信息提示装置,在推荐与用户参照的第1商品配套的第2商品时,提示包括与所述第1商品和所述第2商品的组合效果相关的信息的推荐理由,具有第1分数计算部、第2分数计算部、第3分数计算部、整合分数计算部、以及提示部。第1分数计算部从检索对象的文件组中抽取有关所述第1商品的第1文件组,对该第1文件组中包含的各个单词分别计算表示与所述第1商品的关联性的第1分数。第2分数计算部从检索对象的文件组中抽取有关所述第2商品的第2文件组,对该第2文件组中包含的各个单词分别计算表示与所述第2商品的关联性的第2分数。第3分数计算部从检索对象的文件组中抽取有关所述第1商品和所述第2商品双方的第3文件组,对该第3文件组中包含的各个单词分别计算表示与所述第1商品及所述第2商品双方的关联性的第3分数。整合分数计算部对所述第3文件组中包含的各个单词分别从所述第3分数减去所述第1分数和所述第2分数,计算整合分数。提示部将根据所述整合分数按照规定的基准选择的一个以上的重要单词、或者包含该重要单词的所述第3文件组中的一个以上的文本的至少一方,作为所述推荐理由进行提示。因此,能够适当提示包括与第1商品和第2商品的组合效果相关的信息的推荐理由,提高基于配套型推荐的促销效果。

Claims (8)

1.一种信息提示装置,在推荐与用户参照的第1商品配套的第2商品时,提示包括与所述第1商品和推荐的所述第2商品的组合效果相关的信息的推荐理由,其中,所述信息提示装置具有:
第1分数计算部,从作为检索对象的任意文件组中抽取有关所述用户参照的第1商品的第1文件组,对该第1文件组中包含的各个单词,分别将该第1文件组中的各个单词的出现频次除以第1文件组的总单词数并变换成log对数,将由此求出的值作为负值的第1分数,该第1分数表示与所述第1商品的关联性,对在第1文件组的出现频次越高的单词,赋值越接近0且越高的第1分数;
第2分数计算部,从作为检索对象的任意文件组中抽取有关与所述第1商品配套的所述第2商品的第2文件组,对该第2文件组中包含的各个单词,分别将该第2文件组中的各个单词的出现频次除以第2文件组的总单词数并变换成log对数,将由此求出的值作为负值的第2分数,该第2分数表示与所述第2商品的关联性,对在第2文件组的出现频次越高的单词,赋值越接近0且越高的第2分数;
第3分数计算部,从作为检索对象的任意文件组中抽取有关所述第1商品和所述第2商品双方的第3文件组,对该第3文件组中包含的各个单词,分别将该第3文件组中的各个单词的出现频次除以第3文件组的总单词数并变换成log对数,将由此求出的值作为负值的第3分数,该第3分数表示与所述第1商品及所述第2商品双方的关联性,对在第3文件组的出现频次越高的单词,赋值越接近0且越高的第3分数;
整合分数计算部,对所述第3文件组中包含的各个单词分别从所述第3分数减去所述第1分数和所述第2分数,计算出整合分数,整合分数是表示针对与第1商品和第2商品双方相关的话题的固有性的指标,对针对与第1商品和第2商品双方相关的话题的固有性越高的单词,赋值越高的值的整合分数;
提示部,将基于所述整合分数选择的、针对与所述第1商品和所述第2商品双方相关的话题的固有性高的一个以上的重要单词、或者包含该重要单词的所述第3文件组中的一个以上的文本的至少一方,作为所述推荐理由进行提示。
2.根据权利要求1所述的信息提示装置,
所述第1分数计算部从作为检索对象的任意文件组中抽取包含表示所述第1商品的记述的所述第1文件组,对该第1文件组中包含的各个单词分别计算所述第1分数,在所述第1文件组中的该单词的出现频次越高时,该第1分数成为越高的值,
所述第2分数计算部从作为检索对象的任意文件组中抽取包含表示所述第2商品的记述的所述第2文件组,对该第2文件组中包含的各个单词分别计算所述第2分数,在所述第2文件组中的该单词的出现频次越高时,该第2分数成为越高的值,
所述第3分数计算部从作为检索对象的任意文件组中抽取包含表示所述第1商品的记述和表示所述第2商品的记述双方的所述第3文件组,对该第3文件组中包含的各个单词分别计算所述第3分数,在所述第3文件组中的该单词的出现频次越高时,该第3分数成为越高的值。
3.根据权利要求2所述的信息提示装置,
所述信息提示装置还具有第4分数计算部,从作为检索对象的任意文件组中抽取全部文件得到总文件组,对该总文件组中包含的各个单词,分别将包含各个单词的文件的出现频次除以总文件组中的总文件数并取log对数再使正负反转,将由此求出的值作为正值的第4分数,在总文件组中包含该单词的文件的出现频次越低时,该第4分数成为越高的值,
所述整合分数计算部对于所述第3文件组中包含的各个单词,分别将从所述第3分数减去所述第1分数和所述第2分数得到的值与所述第4分数相乘或者相加,计算出所述整合分数。
4.根据权利要求1所述的信息提示装置,
作为检索对象的任意文件组是与商品的识别信息相关联的文件组,
所述第1分数计算部从作为检索对象的任意文件组中抽取与所述第1商品的识别信息相关联的所述第1文件组,对该第1文件组中包含的各个单词分别计算所述第1分数,在所述第1文件组中的该单词的出现频次越高时,该第1分数成为越高的值,
所述第2分数计算部从作为检索对象的任意文件组中抽取与所述第2商品的识别信息相关联的所述第2文件组,对该第2文件组中包含的各个单词分别计算所述第2分数,在所述第2文件组中的该单词的出现频次越高时,该第2分数成为越高的值,
所述第3分数计算部从作为检索对象的任意文件组中抽取所述第3文件组,对该第3文件组中包含的各个单词分别计算所述第3分数,在所述第3文件组中的该单词的出现频次越高时,该第3分数成为越高的值,所述第3文件组是由购买了所述第1商品和所述第2商品双方的用户记载的、与所述第1商品的识别信息和所述第2商品双方的识别信息相关联的文件组。
5.根据权利要求4所述的信息提示装置,
所述第3分数计算部从作为检索对象的任意文件组中抽取所述第3文件组,对该第3文件组中包含的各个单词分别计算所述第3分数,在所述第3文件组中的该单词的出现频次越高时,该第3分数成为越高的值,所述第3文件组是由在规定的第1期间内购买了所述第1商品和所述第2商品双方的用户,在从购买所述第1商品或者所述第2商品时起规定的第2期间内记载的、与所述第1商品的识别信息或者所述第2商品的识别信息相关联的文件组。
6.根据权利要求4或5所述的信息提示装置,
所述第3分数计算部对于所述第3文件组中包含的各个文件,根据所述第1商品和所述第2商品的购买时间差、或者从购买所述第1商品或者所述第2商品时起到记载该文件的时刻的时间差即评价时间差,设定该文件包含了有关所述第1商品和所述第2商品双方的记述的可信度,对于所述第3文件组赋予该可信度而得到带可信度第3文件组,对于所述带可信度第3文件组中包含的各个单词,分别将各个单词的实际频次与所述可信度相乘得到的值设为x,将所述带可信度第3文件组中包含的总单词数设为y,计算出对数概率log(x/y),作为各个单词的所述第3 分数,所述可信度与所述购买时间差或者评价时间差对应,在所述购买时间差或者评价时间差越大时,越赋予更低值的可信度。
7.一种由信息提示装置执行的信息提示方法,该信息提示装置在推荐与用户参照的第1商品配套的第2商品时,提示包括与所述第1商品和推荐的所述第2商品的组合效果相关的信息的推荐理由,所述信息提示方法包括以下步骤:
所述信息提示装置从作为检索对象的任意文件组中抽取有关所述用户参照的所述第1商品的第1文件组,对该第1文件组中包含的各个单词,分别将该第1文件组中的各个单词的出现频次除以第1文件组的总单词数并变换成log对数,将由此求出的值作为负值的第1分数,该第1分数表示与所述第1商品的关联性,对在第1文件组的出现频次越高的单词,赋值越接近0且越高的第1分数;
所述信息提示装置从作为检索对象的任意文件组中抽取有关与所述第1商品配套的第2商品的第2文件组,对该第2文件组中包含的各个单词,分别将该第2文件组中的各个单词的出现频次除以第2文件组的总单词数并变换成log对数,将由此求出的值作为负值的第2分数,该第2分数表示与所述第2商品的关联性,对在第2文件组的出现频次越高的单词,赋值越接近0且越高的第2分数;
所述信息提示装置从作为检索对象的任意文件组中抽取有关所述第1商品和所述第2商品双方的第3文件组,对该第3文件组中包含的各个单词,分别将该第3文件组中的各个单词的出现频次除以第3文件组的总单词数并变换成log对数,将由此求出的值作为负值的第3分数,该第3分数表示与所述第1商品及所述第2商品双方的关联性,对在第3文件组的出现频次越高的单词,赋值越接近0且越高的第3分数;
所述信息提示装置对所述第3文件组中包含的各个单词分别从所述第3分数减去所述第1分数和所述第2分数,计算整合分数,整合分数是表示针对与第1商品和第2商品双方相关的话题的固有性的指标,对针对与第1商品和第2商品双方相关的话题的固有性越高的单词,赋值越高的值的整合分数;
所述信息提示装置将根据所述整合分数选择的、针对与所述第1商品和所述第2商品双方相关的话题的固有性高的一个以上的重要单词、或者包含该重要单词的所述第3文件组中的一个以上的文本至少一方,作为所述推荐理由进行提示。
8.一种计算机能够读取的记录介质,记录有用于使计算机实现以下功能的程序:
从作为检索对象的任意文件组中抽取有关用户参照的第1商品的第1文件组,对该第1文件组中包含的各个单词,分别将该第1文件组中的各个单词的出现频次除以第1文件组的总单词数并变换成log对数,将由此求出的值作为负值的第1分数,该第1分数表示与所述第1商品的关联性,对在第1文件组的出现频次越高的单词,赋值越接近0且越高的第1分数;
从作为检索对象的任意文件组中抽取有关与所述用户参照的第1商品配套并推荐的第2商品的第2文件组,对该第2文件组中包含的各个单词,分别将该第2文件组中的各个单词的出现频次除以第2文件组的总单词数并变换成log对数,将由此求出的值作为负值的第2分数,该第2分数表示与所述第2商品的关联性,对在第2文件组的出现频次越高的单词,赋值越接近0且越高的第2分数;
从作为检索对象的任意文件组中抽取有关所述第1商品和所述第2商品双方的第3文件组,对该第3文件组中包含的各个单词,分别将该第3文件组中的各个单词的出现频次除以第3文件组的总单词数并变换成log对数,将由此求出的值作为负值的第3分数,该第3分数表示与所述第1商品及所述第2商品双方的关联性,对在第3文件组的出现频次越高的单词,赋值越接近0且越高的第3分数;
对所述第3文件组中包含的各个单词分别从所述第3分数减去所述第1分数和所述第2分数,计算出整合分数,整合分数是表示针对与第1商品和第2商品双方相关的话题的固有性的指标,对针对与第1商品和第2商品双方相关的话题的固有性越高的单词,赋值越高的值的整合分数;以及
将基于所述整合分数选择的、针对与所述第1商品和所述第2商品双方相关的话题的固有性高的一个以上的重要单词、或者包含该重要单词的所述第3文件组中的一个以上的文本至少一方,作为包括与所述第1商品和所述第2商品的组合效果相关的信息的推荐理由进行提示。
CN201580077969.1A 2015-05-11 2015-05-11 信息提示装置、信息提示方法及记录介质 Expired - Fee Related CN107533545B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/063532 WO2016181475A1 (ja) 2015-05-11 2015-05-11 情報提示装置、情報提示方法およびプログラム

Publications (2)

Publication Number Publication Date
CN107533545A CN107533545A (zh) 2018-01-02
CN107533545B true CN107533545B (zh) 2021-01-12

Family

ID=57247832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580077969.1A Expired - Fee Related CN107533545B (zh) 2015-05-11 2015-05-11 信息提示装置、信息提示方法及记录介质

Country Status (3)

Country Link
US (1) US20180005300A1 (zh)
CN (1) CN107533545B (zh)
WO (1) WO2016181475A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417268B2 (en) * 2017-09-22 2019-09-17 Druva Technologies Pte. Ltd. Keyphrase extraction system and method
CN113010788B (zh) * 2021-03-19 2023-05-23 成都欧珀通信科技有限公司 信息推送方法及装置、电子设备、计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225659A (ja) * 2007-03-09 2008-09-25 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010113517A (ja) * 2008-11-06 2010-05-20 Fujitsu Component Ltd 座標入力装置
CN103377193A (zh) * 2012-04-13 2013-10-30 阿里巴巴集团控股有限公司 信息提供方法、网页服务器以及网页浏览器
CN103839172A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 商品推荐方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064187A (ja) * 2007-09-05 2009-03-26 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010113557A (ja) * 2008-11-07 2010-05-20 Nippon Telegr & Teleph Corp <Ntt> レコメンデーション装置、レコメンデーション方法およびレコメンデーションプログラム
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
US9286391B1 (en) * 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
US20140351079A1 (en) * 2013-05-24 2014-11-27 University College Dublin Method for recommending a commodity

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225659A (ja) * 2007-03-09 2008-09-25 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2010113517A (ja) * 2008-11-06 2010-05-20 Fujitsu Component Ltd 座標入力装置
CN103377193A (zh) * 2012-04-13 2013-10-30 阿里巴巴集团控股有限公司 信息提供方法、网页服务器以及网页浏览器
CN103839172A (zh) * 2012-11-23 2014-06-04 阿里巴巴集团控股有限公司 商品推荐方法及系统

Also Published As

Publication number Publication date
US20180005300A1 (en) 2018-01-04
WO2016181475A1 (ja) 2016-11-17
CN107533545A (zh) 2018-01-02

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
Assiri et al. Towards enhancement of a lexicon-based approach for Saudi dialect sentiment analysis
KR101098703B1 (ko) 다수의 기입 시스템을 가진 언어들에 대한 관련 쿼리들을 식별하기 위한 시스템 및 방법
US8635061B2 (en) Language identification in multilingual text
US20190349320A1 (en) System and method for automatically responding to user requests
US9760831B2 (en) Content personalization system
US8880390B2 (en) Linking newsworthy events to published content
Serigos Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish
Atwan et al. Semantically enhanced pseudo relevance feedback for Arabic information retrieval
Ghosh et al. A rule based extractive text summarization technique for Bangla news documents
CN107533545B (zh) 信息提示装置、信息提示方法及记录介质
JP6235386B2 (ja) 情報提示装置、情報提示方法およびプログラム
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
Khan et al. A content-based technique for linking dual language news articles in an archive
KR101308821B1 (ko) 검색엔진용 키워드 추출 시스템 및 추출 방법
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
JP2016197332A (ja) 情報処理システム、情報処理方法、およびコンピュータプログラム
Sariki et al. A book recommendation system based on named entities
EP3203384A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
KR20220007783A (ko) 속성정보를 이용한 성형상품 추천시스템
KR101402339B1 (ko) 문서 관리 시스템 및 문서 관리 방법
Igawa et al. Adaptive distribution of vocabulary frequencies: A novel estimation suitable for social media corpus
WO2010060117A1 (en) Method and system for improving utilization of human searchers
Liu et al. A new method to compose long unknown Chinese keywords
JP7216241B1 (ja) チャンキング実行システム、チャンキング実行方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210112