CN103370708B - 信息处理装置及信息处理方法 - Google Patents

信息处理装置及信息处理方法 Download PDF

Info

Publication number
CN103370708B
CN103370708B CN201280003535.3A CN201280003535A CN103370708B CN 103370708 B CN103370708 B CN 103370708B CN 201280003535 A CN201280003535 A CN 201280003535A CN 103370708 B CN103370708 B CN 103370708B
Authority
CN
China
Prior art keywords
term
paired
occurrence number
character
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280003535.3A
Other languages
English (en)
Other versions
CN103370708A (zh
Inventor
井上贞子
安井卓
杉木健二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lotte Group Co.,Ltd.
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of CN103370708A publication Critical patent/CN103370708A/zh
Application granted granted Critical
Publication of CN103370708B publication Critical patent/CN103370708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构(12a),从与同一用户特定信息建立关联的检索时刻的间隔为特定时间以内的检索词,生成按照检索时刻的顺序而使检索时刻较早的检索词与较晚的检索词成对的成对检索词(S4)。算出在所生成的成对检索词中成对检索词的第1出现次数(S7),并算出相对于成对检索词而使检索时刻的顺序相反的倒序成对检索词的第2出现次数(S8),在第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将较早的检索词与较晚的检索词作为同义词而存储(S9、S10)。

Description

信息处理装置及信息处理方法
技术领域
本发明涉及一种生成辞典的信息处理装置、信息处理方法、信息处理装置用程序及记录媒体的技术领域。
背景技术
在进行检索处理、或对为检索而输入的检索词进行转换处理的情形时,近义词辞典(同义词(thesaurus)辞典)较为有用。在网际网络上,不断提供新的商品或服务等,因而产生新的词语。亦必需使此种新的词语可对应同义词辞典。例如,在专利文献1中揭示有如下辞典生成装置,其以综合有文件中的特定范围内的词语的共现频度表与将同义词信息转换成假想的频度表的同义词频度表的频度表为基础而学习词语间的关联性,并压缩综合频度表而制成概念辞典。
[先前技术文献]
[专利文献]
[专利文献1]日本专利特开2005-250762号公报
发明内容
[发明所要解决的问题]
然而,在如专利文献1的先前技术中,揭示有关于生成同义词辞典的技术,但有预先提供词语间的阶层构造作为预处理等的人的负担。
本发明是鉴于所述问题而完成者,其课题的一例的目的在于提供一种根据用于检索的检索词而生成同义词辞典的信息处理装置等。
[解决问题的技术手段]
为解决所述课题,技术方案1的发明的特征在于包含:成对检索词生成机构,其参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的时刻即检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构,从与同一所述用户特定信息建立关联的所述检索时刻的间隔为特定时间以内的检索词, 生成按照所述检索时刻的顺序而使所述检索时刻较早的检索词与较晚的检索词成对的成对检索词;第1出现次数算出机构,其算出在通过所述成对检索词生成机构而生成的成对检索词中特定成对检索词出现的第1出现次数;第2出现次数算出机构,其算出相对于所述特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数;以及存储机构,其在通过所述第1及第2出现次数算出机构而算出的第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
技术方案2所述的发明为根据技术方案1所述的信息处理装置,其特征在于:所述存储机构在通过所述第1及第2出现次数算出机构而算出的第1出现次数与第2出现次数的差为特定范围内的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
技术方案3所述的发明为根据技术方案1或2所述的信息处理装置,其特征在于:所述成对检索词生成机构对所述较早的检索词及较晚的检索词的字符串进行处理而生成所述成对检索词。
技术方案4所述的发明为根据技术方案3所述的信息处理装置,其特征在于:所述成对检索词生成机构参照预先存储有用以从所述检索词中删除特定字符的字符的删除用字符存储机构,进行从所述较早的检索词及较晚的检索词中删除特定字符的字符串处理而生成所述成对检索词。
技术方案5所述的发明为根据技术方案1至4中任一项所述的信息处理装置,其特征在于:所述成对检索词生成机构在检索词为2个以上且所述较早的检索词与较晚的检索词之间具有共用的检索词的情形时,根据已删除共用的检索词的较早的检索词及较晚的检索词而生成所述成对检索词。
技术方案6所述的发明为根据技术方案1至5中任一项所述的信息处理装置,其特征在于:该信息处理装置更包括参照所述检索词存储机构而取得第1检索词及第2检索词的检索词取得机构,且所述存储机构对通过所述检索词取得机构而取得的第1检索词及第2检索词的字符串进行处理,当在该字符串已被处理的第1检索词与第2检索词之间成立包含关系时,将所述第1检索词与第2检索词作为同义词而存储。
技术方案7所述的发明为根据技术方案6所述的信息处理装置,其特征在于:所述存储机构按照通过所述检索词取得机构而取得的第1检索词及第2检索词的字符串的顺序,进行将该第1及第2检索词的各字符进行比较的字符串处理而判定包含关系,在该包含关系成立时,将所述第1检索词与第2检索词作为同义词而存储。
技术方案8所述的发明为根据技术方案6或7所述的信息处理装置,其特征在于:所述存储机构参照预先存储有用以从所述检索词中删除特定字符的字符的删除用字符存储机构,对通过所述检索词取得机构而取得的第1检索词及第2检索词进行删除特定字符的字符串处理,当在已删除该特定字符的第1检索词与第2检索词之间成立包含关系时,将所述第1检索词与第2检索词作为同义词而存储。
技术方案9所述的发明为根据技术方案6至8中任一项所述的信息处理装置,其特征在于:所述存储机构在检索词为2个以上且所述第1检索词与第2检索词之间具有共用的检索词的情形时,对于已删除该共用的检索词的第1及第2检索词,当已删除所述特定字符时的包含关系成立时,将删除所述共用的检索词的第1及第2检索词作为同义词而存储。
技术方案10所述的发明为根据技术方案1至9中任一项所述的信息处理装置,其特征在于:所述存储机构参照作为所述同义词而存储的检索词的同义词数据库,将与作为同义词而存储的2个检索词中的至少一个检索词存在同义词的关系的检索词连同所述2个检索词一并作为同义词加以存储。
技术方案11所述的发明是进行信息处理的信息处理装置的信息处理方法,其特征在于包含:成对检索词生成步骤,参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的时刻即检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构,从与同一所述用户特定信息建立关联的所述检索时刻的间隔为特定时间以内的检索词,生成按照所述检索时刻的顺序而使所述检索时刻较早的检索词与较晚的检索词成对的成对检索词;第1出现次数算出步骤,算出在所述成对检索词生成步骤中生成的成对检索词中特定成对检索词出现的第1出现次数;第2出现次数算出步骤,算出相对于所述特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数;以及存储步骤,在所述第1及第2出现次数算出步骤中算出的第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
技术方案12所述的发明的特征在于使电脑作为如下机构发挥功能,即:成对检索词生成机构,其参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的时刻即检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构,从与同一所述用户特定信息建立关联的所述检索时刻的间隔为特定时间以内的检索词,生成按照所述检索时刻的顺序而使所述检索时刻较早的检索词与较晚的检索词成对的成对检索词;第1出现次数算出机构,其算出在通过所述成对检索词生 成机构而生成的成对检索词中特定成对检索词出现的第1出现次数;第2出现次数算出机构,其算出相对于所述特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数;以及存储机构,其在通过所述第1及第2出现次数算出机构而算出的第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
技术方案13所述的发明是电脑可读取地记录有信息处理装置用程序,其特征在于该程序使电脑作为如下机构发挥功能,即:成对检索词生成机构,其参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的时刻即检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构,从与同一所述用户特定信息建立关联的所述检索时刻的间隔为特定时间以内的检索词,生成按照所述检索时刻的顺序而使所述检索时刻较早的检索词与较晚的检索词成对的成对检索词;第1出现次数算出机构,其算出在通过所述成对检索词生成机构而生成的成对检索词中特定成对检索词出现的第1出现次数;第2出现次数算出机构,其算出相对于所述特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数;以及存储机构,其在通过所述第1及第2出现次数算出机构而算出的第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
[发明的效果]
根据本发明,参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构,从与同一用户特定信息建立关联的检索时刻的间隔为特定时间以内的检索词,生成按照检索时刻的顺序而使检索时刻较早的检索词与较晚的检索词成对的成对检索词,算出在所生成的成对检索词中特定成对检索词出现的第1出现次数,算出相对于特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数,在第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将较早的检索词与较晚的检索词作为同义词而存储,由此可根据用于检索的检索词而生成同义词辞典。
附图说明
图1是表示本发明的实施方式的信息处理系统的概要构成例的示意图。
图2是表示图1的信息处理服务器的概要构成的一例的方块图。
图3是表示存储在图2的检索查询日志数据库中的检索查询日志的一例的示意图。
图4是表示存储在图2的删除用字符数据库中的删除用字符的一例的示意图。
图5是表示图1的购物服务器的概要构成的一例的方块图。
图6是表示图1的用户终端装置的概要构成的一例的方块图。
图7是表示图1的信息处理系统的第1实施方式的动作例的流程图。
图8是表示存储在图2的成对检索查询数据库中的成对检索查询的一例的示意图。
图9是表示具有方向性的成对检索查询的一例的示意图。
图10是表示存储在图2的同义词数据库中的同义词的一例的示意图。
图11是表示存储在图2的同义词数据库中的同义词的一例的示意图。
图12是表示对于检索词显示同义词的一例的示意图。
图13是表示图1的信息处理系统的第2实施方式的动作例的流程图。
[符号的说明]
1    信息处理系统
10   信息处理服务器(信息处理装置)
12a  检索查询日志DB(检索词存储机构)
12b  删除用字符DB
12c  成对检索词DB
12d  同义词DB(同义词数据库)
20   购物服务器
22a  商品DB
22b  会员DB
30   终端装置
具体实施方式
以下,参照图式,对本发明的实施方式进行说明。另外,以下所说明的实施方式是对于信息处理系统应用本发明的情形时的实施方式。
[1.信息处理系统的构成及功能概要]
首先,使用图1对本发明的一实施方式的信息处理系统的构成及概要功能进行说明。
图1是表示本实施方式的信息处理系统1的概要构成例的示意图。
如图1所示,信息处理系统1包括:信息处理服务器(信息处理装置的一例)10,其 构筑同义词数据库;购物服务器20,其为用户所利用的购物网站运营而设置;及终端装置30,其用以用户检索并购入购物网站的商品。
信息处理服务器10与购物服务器20是通过局域网络等连接,且可相互地收发数据,且构成服务器系统(信息处理装置的一例)5。而且,服务器系统5与终端装置30是通过网络3连接,且通过通信协定(例如,TCP/IP)而可收发数据。另外,网络3是通过例如网际网络、专用通信线路(例如CATV(Community Antenna Television,共用天线电视)线路)、移动通信(包含基站等)、及网间接口等而构筑。
此外,信息处理服务器10是记录用户在终端装置30上进行的检索的检索查询,并根据检索查询日志(query log),生成同义词数据库。
[2.各服务器的构成及功能]
(2.1信息处理服务器10的构成及功能)
其次,使用图2至图4,对信息处理服务器10的构成及功能进行说明。
图2是表示信息处理服务器10的概要构成的一例的方块图。图3是表示存储在检索查询日志数据库中的检索查询日志的一例的示意图。图4是表示存储在删除用字符数据库中的删除用字符的一例的示意图。
如图2所示,作为电脑而发挥功能的信息处理服务器10包括通信部11、存储部12、输入输出接口部13、及系统控制部14。而且,系统控制部14与输入输出接口部13是经由系统总线15而连接。
通信部11是连接在网络3而控制与终端装置30、数据检索服务器7等的通信状态,进而,连接在局域网络而与局域网络上的购物服务器20等其它服务器进行数据的收发。
存储部12例如包含硬盘驱动器等,且存储操作系统及服务器程序等各种程序、或数据等。另外,各种程序例如既可从其它服务器装置等经由网络3而取得,亦可记录在记录媒体而经由驱动装置读入。
此外,在存储部12中构筑有:检索查询日志数据库(以下称为“检索查询日志DB”)12a,其按照接收到从各用户的终端装置30发送的检索查询的接收时刻的顺序而存储;删除用字符数据库(以下称为“删除用字符DB”)12b,其存储用以从检索查询的检索词中删除特定字符的字符;成对检索词数据库(以下称为“成对检索词DB”)12c,其存储使检索词成对的成对检索词;及同义词数据库(以下称为“同义词DB”)12d等,其存储存在同义词关系的检索词。
在检索查询日志DB12a(检索词存储机构的一例)中,如图3所示,将用以特定从哪一用户的终端装置30发送的检索查询的唯一的用户ID(Identification,标识符)(用以特定 用户的用户特定信息的一例)与从终端装置30接收检索查询的日期及时间(接收时刻)建立关联而存储检索词。此处,唯一的用户ID包含IP(Internet Protocol,网间协议)地址、用户的性别的编码、用户的年龄的编码、用户所居住的都道府县的编码。接收时刻为用以特定使用检索词执行检索处理的时刻即检索时刻的检索时刻特定信息的一例。此外,在从终端装置30发送检索查询时,终端装置30亦可发送附加有点击检索按钮的时间的信息的检索查询作为使用检索词执行检索处理的时刻即检索时刻。而且,信息处理服务器10亦可从检索查询中提取检索时刻,且代替接收时刻而将该检索时刻存储在检索查询日志DB12a。
在删除用字符DB12b中,如图4所示,存储有如“☆”、“★”等符号的删除用字符、或欲从“”(空格)等检索词中删除的字符等。此外,删除用字符亦可为长音符号(长音字符)“一”。
在成对检索词DB12c中,存储有按照检索时刻的顺序而使接收时刻的顺序(检索时刻的顺序的一例)较早的检索词与较晚的检索词成对的成对检索词。
在同义词DB12d中,存储有从检索查询日志生成的存在同义词关系的检索词。
其次,输入输出接口部13进行通信部11及存储部12与系统控制部14之间的接口处理。
系统控制部14包含CPU(Central Processing Unit,中央处理器)14a、ROM(Read Only Memory,只读存储器)14b、RAM(Random Access Memory,随机存取存储器)14c等。系统控制部14通过CPU14a读出并执行存储在ROM14b或存储部12的各种程序,而进行同义词的存储处理等。
(2.2购物服务器20的构成及功能)
其次,使用图5对购物服务器20的构成及功能进行说明。
图5是表示购物服务器20的概要构成的一例的方块图。
如图5所示,购物服务器20包括通信部21、存储部22、输入输出接口部23、及系统控制部24,且系统控制部24与输入输出接口部23是经由系统总线25而连接。另外,购物服务器20的构成及功能因与信息处理服务器10的构成及功能大致相同,故在信息处理服务器10的各构成或各功能中,以不同点为中心进行说明。
通信部21通过网络3或局域网络等而控制与终端装置30或信息处理服务器10等的通信状态等。
在存储部22中,构筑有商品数据库(以下称为“商品DB”)22a、或会员数据库(以下称为“会员DB”)22b等。
在商品DB22a中,与作为用以识别商品的识别码的商品ID建立关联而存储有商品名、种类、商品的图像、规格、及商品介绍的摘要等商品信息、或广告信息等。此外,在商品DB22a中,存储有通过HTML(hypertext markup language,超文本标记语言)、XML(Extensible Markup Language,可扩展标记语言)等标记语言等而记述的商品网页的文件等。
在会员DB22b中,登录有已由会员登录的用户(购物网站的利用者)的用户ID、名称、性别、年龄、住所、电话号码、邮件地址(mail address)、职业、兴趣、购买经历、用户所关心的主题或类型等用户信息。此外,在会员DB22b中,登录有用户从终端装置30登入购物网站时所需的用户ID、登入ID、及密码。此处,登入ID及密码为用于登入处理(用户的认证处理)的登入信息。
系统控制部24包含CPU24a、ROM24b、RAM24c等。而且,系统控制部24通过CPU24a读出并执行存储在ROM24b或存储部22的各种程序,而针对每个用户ID来记录用户的商品购入处理、或商品的购买经历。
(2.3终端装置30的构成及功能)
其次,使用图6对终端装置30的构成及功能进行说明。
图6是表示终端装置30的概要构成的一例的方块图。
如图6所示,作为电脑而发挥功能的终端装置30为例如个人电脑或便携式无线电话或PDA(personal digital assistant,个人数字助理)等移动终端,且包括通信部31、存储部32、显示部33、操作部34、输入输出接口部35、及系统控制部36。而且,系统控制部36与输入输出接口部35是经由系统总线37而连接。
通信部31通过网络3而控制与信息处理服务器10等的通信。另外,在终端装置30为便携式无线电话的情形时,为连接在网络3的移动通信网,而通信部31具有无线通信功能。
存储部32例如包含硬盘驱动器等,且存储操作系统、Web浏览器程序等。
显示部33例如包含液晶显示元件或EL(Electro Luminescence,电致发光)元件等。在显示部33中,显示有从信息处理服务器10取得的网页等。
操作部34例如包含键盘及鼠标等。用户通过操作部34而输入应答。另外,在显示部33为如触控面板般的触控开关方式的显示面板的情形时,操作部34取得显示部33的画面被按压的部位的位置信息。
输入输出接口部35为通信部31及存储部32与系统控制部36的接口。
系统控制部36例如包含CPU36a、ROM36b、及RAM36c。系统控制部36读出并执 行CPU36a存储在ROM36b、或RAM36c、或存储部32的各种程序。
[3.信息处理系统的第1实施方式的动作]
其次,使用图7至图12对本发明的1实施方式的信息处理系统1的动作进行说明。
图7是表示信息处理系统的第1实施方式的动作例的流程图。图8是表示存储在成对检索词DB12c的成对检索查询的一例的示意图。图9是表示具有方向性的成对检索词的一例的示意图。图10是表示存储在同义词数据库中的同义词的一例的示意图。图11是表示存储在同义词数据库中的同义词的一例的示意图。图12是表示对于检索词显示同义词的一例的示意图。
首先,用户访问(access)购物服务器20,输入用户ID或登入ID并输入密码,登入购物网站。终端装置30将用户ID或登入ID、及密码发送至购物服务器20。
其次,若用户为在购物网站搜索商品而输入检索词进行检索,则终端装置30将包含检索词的检索查询发送至购物服务器20。购物服务器20从终端装置30接收检索查询。
购物服务器20基于检索词,参照商品DB22a进行商品的检索。此时,购物服务器20将接收的检索查询与该检索查询的封包中包含的IP地址连同用户ID或登入ID一并发送至信息处理服务器10。
信息处理服务器10基于从购物服务器20接收的用户ID或登入ID,参照购物服务器20的会员DB22b,取得用户的性别、年龄、住所。而且,信息处理服务器10根据接收的IP地址与用户的性别编码、年龄编码、住所的都道府县的编码,生成唯一的用户ID(用以特定使用检索词的用户的用户特定信息的一例)。另外,为提高用户的同一性,而亦可为登入时的用户ID、登入ID来代替从IP地址与用户的性别的编码等生成的唯一的用户ID。进而,唯一的用户ID亦可组合IP地址与用户ID或登入ID。此外,在使用包含IP地址的唯一的用户ID的情形时,即便为同一用户,在从IP地址不同的提供方(provider)进入的情形时,在检索查询日志DB12a上亦被视作不同的用户来处理。
信息处理服务器10将经由购物服务器20而从各终端装置30接收的检索查询与唯一的用户ID及接收时刻建立关联而存储在检索查询日志DB12a。信息处理服务器10按照取得检索查询的检索时刻的顺序而构筑存储有检索词的检索查询日志DB12a。另外,接收时刻为用以特定使用检索词执行检索处理的时刻即检索时刻的检索时刻特定信息的一例,且既可为信息处理服务器10从购物服务器20接收检索查询的时间,亦可为购物服务器20从终端装置30接收检索查询的时间。
在检索查询的数量为特定数量以上的情形时,或在特定时间,信息处理服务器10开始向下述的同义词DB12d进行存储处理。
如图6所示,信息处理服务器10提取与特定唯一的用户ID相关联的检索查询(步骤S1)。具体而言,信息处理服务器10的系统控制部14特定1个唯一的用户ID,并参照检索查询日志DB12a,而提取与唯一的用户ID相关联的检索查询作为与同一用户特定信息建立关联的检索词的一例。如图3所示,信息处理服务器10的系统控制部14例如提取A部分的检索查询。此时,去除唯一的用户ID不同的B部分。
其次,信息处理服务器10提取与接收时刻相关联的检索词(步骤S2)。具体而言,信息处理服务器10的系统控制部14从与特定唯一的用户ID相关联的提取的检索词中提取接收时刻(检索时刻的一例)的间隔为特定时间以内的检索词彼此并进行群组化作为与检索时刻特定信息相关联的检索词的一例。
如图3所示,信息处理服务器10的系统控制部14例如根据A部分的检索词将接收时刻的间隔为60秒以内的群组A1与群组A2进行群组化。接收时刻的间隔为特定时间以内的检索词彼此因重新检索的时间间隔不过于远,故用户对特定商品重新输入检索词后进行检索的可能性较高。
其次,信息处理服务器10从检索词中删除特定字符串(步骤S3)。具体而言,信息处理服务器10的系统控制部14参照删除用字符DB12b,在检索词中存在特定字符的情形时,删除特定字符,转换成删除特定字符的检索词作为对较早的检索词及较晚的检索词进行字符串处理的一例。例如,在检索词为“テレビ(电视)]”的情形时,删除“]”,将检索词设为“テレビ”。该情形为在按Enter键时亦错误地按了“1”的情形。
如此般,信息处理服务器10作为对较早的检索词及较晚的检索词的字符串进行处理而生成成对检索词的成对检索词生成机构的一例发挥功能。此外,信息处理服务器10作为参照预先存储有用以从检索词中删除特定字符的字符的删除用字符存储机构,进行从较早的检索词及较晚的检索词中删除特定字符的字符串处理而生成成对检索词的成对检索词生成机构的一例发挥功能。
其次,信息处理服务器10生成并存储成对检索词(步骤S4)。具体而言,信息处理服务器10的系统控制部14参照检索查询日志DB12a,从唯一的用户ID与对应于特定时间的群组化的检索查询中,生成按照检索时刻的顺序而使接收时刻的顺序较早的检索词与较晚的检索词成对的成对检索词。而且,信息处理服务器10的系统控制部14将所生成的成对检索词存储在成对检索词DB12c中。如此般,信息处理服务器10作为根据与同一用户特定信息建立关联的检索时刻的间隔为特定时间以内的检索词,生成按照检索时刻的顺序而使检索时刻较早的检索词与较晚的检索词成对的成对检索词的成对检索词生成机构的一例发挥功能。
如图8所示,相对于群组A1的检索词“TV”、“テレビ”、“テレビ32インチ”、“テレビ32インチ黑”,生成具有检索时刻的顺序的方向性的成对检索词。若群组A1的检索词有n个,则成对检索词的数量成为组合的数nC2
另外,检索词“テレビ32インチ(英寸)”与检索词“テレビ32インチ黑”中,存在共用的检索词“テレビ”与“32インチ”。信息处理伺服器10为不使本来的检索词消失,而例如亦可仅删除作为共用的检索词中的1个的“32インチ”,而生成成对检索词(“テレビ”→“テレビ黑”)作为检索词“テレビ”与检索词“テレビ黑”。此外,如图3所示,在检索词“テレビチュ一ナ(调谐器)”与检索词“TVチュ一ナ”的情形时,信息处理伺服器10亦可删除共用的检索词“チュ一ナ”,而生成成对检索词(“テレビ”→“TV”)。此外,检索词一般多数情况下如“整体(entity)属性值属性值……”般输入,故如此例般,亦可留下复数个检索词中首次出现的“テレビ”。
如此般,信息处理服务器10作为根据与用户特定信息及检索时刻特定信息相关联的检索词,生成按照检索时刻的顺序而使检索时刻较早的检索词与较晚的检索词成对的成对检索词的成对检索词生成机构的一例发挥功能。此外,信息处理服务器10作为根据已删除特定字符的较早的检索词及较晚的检索词,生成所述成对检索词的成对检索词生成机构的一例发挥功能。此外,信息处理服务器10在检索词为2个以上且较早的检索词与较晚的检索词之间具有共用的检索词的情形时,作为根据已删除共用的检索词的较早的检索词及较晚的检索词,生成成对检索词的成对检索词生成机构的一例发挥功能。
其次,信息处理服务器10判定是否存在剩余的唯一的用户ID(步骤S5)。具体而言,在存在下一特定的唯一的用户ID的情形时(步骤S5;YES(是)),信息处理服务器10的系统控制部14返回步骤S1,通过下一特定的唯一的用户ID而提取检索词。如图3所示,信息处理服务器10的系统控制部14例如提取B部分的检索词。在不存在下一特定的唯一的用户ID的情形时(步骤S5;NO(否)),信息处理服务器10的系统控制部14进行步骤S6的处理。在步骤S2中,B部分的检索词因接收时刻的间隔长在60秒,故无法群组化。此外,C部分的检索词因在步骤S2中接收时刻的间隔为60秒以内,故被群组化。而且,在C部分的检索词中,已删除共用的检索词“チュ一ナ”,而生成成对检索词(“テレビ”→“TV”)。
如此般,如图9所示,信息处理服务器10的系统控制部14构筑成对检索词DB12c。
其次,信息处理服务器10特定成对检索词(步骤S6)。具体而言,信息处理伺服器10的系统控制部14参照所构筑的成对检索词DB12c,特定某一成对检索词(例如,“TV” →“テレビ”)。另外,在各群组的组合的数nC2的合计为特定以上的情形时,亦可进行步骤S6以下的处理。
继而,信息处理服务器10算出成对检索词的第1出现次数(步骤S7)。具体而言,信息处理伺服器10的系统控制部14参照成对检索词DB12c而算出成对检索词(例如,“TV”→“テレビ”)的第1出现次数。此处,出现次数是对应于存在于成对检索词DB12c中的所有成对检索词而算出。即,出现次数为相对于检索出的所有用户的检索次数。
如此般,信息处理服务器10作为算出在所生成的成对检索词中特定成对检索词出现的第1出现次数的第1出现次数算出机构的一例发挥功能。
继而,信息处理服务器10算出接收时刻的顺序相反的成对检索词的第2出现次数(步骤S8)。具体而言,信息处理伺服器10的系统控制部14参照成对检索词DB12c,算出接收时刻的顺序相反的成对检索词(例如,“テレビ”→“TV”)的第2出现次数。
如此般,信息处理服务器10作为算出相对于特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数的第2出现次数算出机构的一例发挥功能。
其次,信息处理服务器10判定第1出现次数与第2出现次数的大小关系是否满足特定条件(步骤S9)。具体而言,信息处理服务器10的系统控制部14在算出的第1出现次数与第2出现次数的差为特定范围内的情形时,判定第1出现次数与第2出现次数的大小关系是否满足特定条件。
此处,当在成对检索词“テレビ”→“TV”的情形时与成对检索词“TV”→“テレビ”的情形时的出现次数相抗衡等出现次数的大小关系满足特定条件的情形时,关于检索的顺序,双方向性较高。即,从用户整体来看,只要亦有如“テレビ”→“TV”般重新输入检索词的情况,则亦有如“TV”→“テレビ”般重新输入检索词的情况,故设为检索词“テレビ”与检索词“TV”存在同义词关系。
另一方面,作为出现次数的大小关系不满足特定条件的例,关于成对检索词“C”→“C++”,在检索的顺序相反的成对检索词“C++”→“C”的第2出现次数为零、或相对于成对检索词“C”→“C++”的第1出现次数而为极少的情形时,设为成对检索词“C”→“C++”无双方向性。在该情形时,设为检索词“C”与检索词“C++”不存在同义词关系。
另外,作为第1出现次数与第2出现次数的大小关系满足特定条件的情形时的示例,亦可使某一成对检索词(A→B)的出现次数与接收时刻的顺序相反的成对检索词(B→A)的出现次数的差、比、或其等的对数为特定范围内。
继而,在出现次数的大小关系满足特定条件的情形时(步骤S9;YES),信息处理服 务器10将成对检索词作为同义词而存储(步骤S10)。具体而言,如图10所示,信息处理服务器10的系统控制部14将出现次数的大小关系满足特定条件的成对检索词彼此存储在同义词数据DB12d中。
此外,将2个检索词连同与作为同义词而存储的2个检索词中的至少一个检索词存在同义词的关系的检索词一并作为同义词而存储在同义词数据库。例如,在将检索词“TV”与检索词“TV”作为同义词,先存储在同义词数据DB12d,并将成对检索词“テレビ”→“TV”在步骤S9中存储的情形时,如图10所示,将检索词“TV”、检索词“テレビ”、及检索词“TV”作为同义词而存储在同义词数据DB12d。
如此般,信息处理服务器10作为在第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储的存储机构的一例发挥功能。此外,信息处理服务器10作为在算出的第1出现次数与第2出现次数的差为特定范围内的情形时,将较早的检索词与较晚的检索词作为同义词而存储的存储机构的一例发挥功能。此外,信息处理服务器10是作为参照同义词数据库,将2个检索词连同与作为同义词而存储的2个检索词中的至少一个检索词存在同义词的关系的检索词一并作为同义词而存储的存储机构的一例发挥功能。
其次,信息处理服务器10判定是否存在剩余的成对检索词(步骤S11)。具体而言,信息处理服务器10的系统控制部14参照成对检索词DB12c,判定是否存在下一特定的成对检索词。
继而,在存在剩余的成对检索词的情形时(在存在下一特定的成对检索词的情形时)(步骤S11;YES),信息处理服务器10的系统控制部14返回步骤S6,特定下一成对检索词。
如图10所示,在成对检索词“バイク(摩托车)”→“自动二轮(自动二轮车)””的情形时,信息处理伺服器10的系统控制部14亦算出检索的顺序相反的成对检索词“自动二轮”→“バイク”的第2出现次数,判定第1出现次数与第2出现次数的大小关系是否满足特定条件,将检索词“自动二轮”及检索词“バイク”存储在同义词数据DB12d。
如图11所示,在检索词为英语且成对检索词“TV”→“television”的情形时,信息处理服务器10的系统控制部14亦算出检索的顺序相反的成对检索词“television”→“TV”的第2出现次数,判定第1出现次数与第2出现次数的大小关系是否满足特定条件,将检索词“TV”及检索词“television”存储在同义词数据DB12d。
在不存在剩余的成对检索词的情形时(步骤S11;NO),信息处理服务器10的系统控制部14结束同义词存储的处理。
购物服务器20从终端装置30接收检索词并参照所构筑的同义词数据DB12d,只要在接收到的检索词中具有存在同义词关系的检索词,则如图12般,在商品检索网页50上显示存在同义词关系的检索词。
以上,根据本实施方式,参照将唯一的用户ID(用以特定使用检索词的用户的用户特定信息的一例)与接收时刻(用以特定使用检索词执行检索处理的时刻即检索时刻的检索时刻特定信息的一例)建立关联而存储该检索词的检索查询日志DB12a(检索词存储机构的一例),从与同一唯一的用户ID建立关联的接收时刻的间隔为特定时间以内的检索词,生成按照接收时刻的顺序而使接收时刻较早的检索词与较晚的检索词成对的成对检索词,算出在所生成的成对检索词中特定成对检索词出现的第1出现次数,并算出相对于特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数,在第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将较早的检索词与较晚的检索词作为同义词而存储,由此,可根据用于检索的检索词而生成同义词辞典。
信息处理服务器10因生成同义词辞典,故可辅助同义词辞典的生成,从而可减轻人的负担。
此外,如与同一用户特定信息建立关联的检索词般,若为与用户特定信息具有关联的检索词,则同一用户以某一主题检索的可能性较高,故同义词辞典的精度提高。
此外,如检索时刻的间隔为特定时间以内的检索词般,若为与检索时刻特定信息具有关联的检索词,则在大致相同的时间关于同一主题进行检索的可能性较高,故同义词辞典的精度提高。
此外,在通过第1及2出现次数算出机构而算出的第1出现次数与第2出现次数的差为特定范围内的情形时,在将较早的检索词与较晚的检索词作为同义词而存储的情形时,成对检索词的双方向性变高,同义词辞典的精度提高。
此外,在对较早的检索词及较晚的检索词的字符串进行处理而生成成对检索词的情形时,例如亦可对已删除特定字符的成对检索词进行计数,可收集的成对检索词的数量增加,第1及第2出现次数的算出变得更加准确,同义词的精度进一步提高。此外,在参照预先存储有用以从检索词中删除特定字符的字符的删除用字符DB12b,进行从所述较早的检索词及较晚的检索词中删除特定字符的字符串处理,而生成成对检索词的情形时,通过所删除的字符串的检索词而生成检索查询的对,由此亦可对已删除特定字符的成对检索词进行计数,可收集的成对检索词的数量增加,第1及第2出现次数的算出变得更加准确,同义词的精度进一步提高。
在检索词为2个以上且所述较早的检索词与较晚的检索词之间具有共用的检索词的 情形时,在根据已删除共用的检索词的较早的检索词及较晚的检索词而生成成对检索词的情形时,亦可删除共用的检索词而对成对检索词进行计数,因而可收集的成对检索词的数量增加,从而第1及第2出现次数的算出变得更加准确,同义词的精度进一步提高。
信息处理服务器10在参照同义词数据DB12d,将2个检索词连同与作为同义词而存储的2个检索词中的至少一个检索词存在同义词的关系的检索词一并作为同义词而存储在同义词数据DB12d的情形时,对于3个以上的检索词,同义词的范围亦较广,同义词数据DB12d的通用性增加。
另外,在步骤S3中,信息处理服务器10的系统控制部14亦可不删除特定字符或共用字符,而在步骤S4中,直接生成成对检索词。在该情形时,信息处理服务器10的系统控制部14在步骤S7及步骤S8中,在算出出现次数时,信息处理服务器10参照删除用字符DB12b,除出现次数以外亦算出包含删除用字符的检索词的成对检索词。
如此般,在参照预先存储有用以从检索词中删除特定字符的字符的删除用字符DB12b,算出特定成对检索词的出现次数与相对于该成对检索词包含所述特定字符的成对检索词的出现次数的和作为第1出现次数,并参照删除用字符DB12b,算出倒序成对检索词的出现次数与相对于该倒序成对检索词包含特定字符的倒序成对检索词的出现次数的和作为第2出现次数的情形时,删除特定字符,亦可对成对检索词进行计数,因而可收集的成对检索词的数量增加,从而第1及第2出现次数的算出变得更加准确,同义词的精度进一步提高。
此外,在算出特定成对检索词的出现次数与相对于该成对检索词的较早的检索词与较晚的检索词附加有共用的字符的成对检索词的出现次数的和作为第1出现次数,并算出倒序成对检索词的出现次数与相对于该倒序成对检索词的较早的检索词与较晚的检索词附加有共用的字符的倒序成对检索词的出现次数的和作为第2出现次数的情形时,亦可删除共用的检索词而对成对检索词进行计数,因而可收集的成对检索词的数量增加,从而第1及第2出现次数的算出变得更加准确,同义词的精度进一步提高。
进而,亦可在步骤S3中,信息处理服务器10的系统控制部14不删除特定字符或共用字符,在步骤S4中直接生成成对检索词,在步骤S7及步骤S8中,在算出出现次数时,信息处理服务器10不参照删除用字符DB12b地算出出现次数。在包含删除用字符或共用字符的情形时,成为个别的成对检索词。
[4.信息处理系统的第2实施方式的动作]
其次,使用图式对信息处理系统的第2实施方式的动作进行说明。
图13是表示信息处理系统1的第2实施方式的动作例的流程图。
如图13所示,信息处理服务器10根据检索查询日志DB12a取得2个检索词(步骤S20)。具体而言,信息处理服务器10的系统控制部14参照检索查询日志DB12a,提取接收时刻不同的2个检索词。例如,提取检索词“ヘビ一メタル(heavy-metal,重金属)”、及检索词“ヘビメタ”。
如此般,信息处理服务器10作为参照检索词存储机构而取得第1检索词及第2检索词的检索词取得机构的一例发挥功能。
其次,信息处理服务器10从各检索词中删除特定字符串(步骤S21)。具体而言,信息处理服务器10的系统控制部14参照删除用字符DB12b,在检索词中存在特定字符的情形时,删除特定字符作为对于第1检索词及第2检索词进行字符串处理的一例。从检索词“ヘビ一メタル”中删除特定字符“一”,成为检索词“ヘビメタル”。检索词“ヘビメタ”因无特定字符,故保持原样。
如此般,信息处理服务器10作为对通过检索词取得机构而取得的第1检索词及第2检索词的字符串进行处理,当在该字符串已被处理的第1检索词与第2检索词之间成立包含关系时,将第1检索词与第2检索词作为同义词而存储的存储机构的一例发挥功能。此外,信息处理服务器10作为参照预先存储有用以从检索词中删除特定字符的字符的删除用字符存储机构,对通过检索词取得机构而取得的第1检索词及第2检索词进行删除特定字符的字符串处理,当在已删除该特定字符的第1检索词与第2检索词之间成立包含关系时,将第1检索词与第2检索词作为同义词而存储的存储机构的一例发挥功能。
此外,在检索词“ヘビ一メタルCD(compact disk,光碟)”、检索词“CDヘビメタ”的情形时,信息处理伺服器10删除共用字符“CD”,设为检索词“ヘビ一メタル”、检索词“ヘビメタ”。
其次,信息处理服务器10判定是否存在包含关系(步骤S22)。具体而言,信息处理服务器10的系统控制部14判定在经删除特定字符的处理的检索词彼此包含关系是否成立。因检索词“ヘビメタ”包含在检索词“ヘビメタル”(字符串“ヘビメタ”共用),故信息处理伺服器10的系统控制部14判定成立包含关系。另外,在检索词“ヘビメタ”检索词相同的情形时亦设为存在包含关系。
在包含关系成立的情形时(步骤S22;YES),信息处理服务器10将2个检索词作为同义词而存储(步骤S23)。具体而言,若包含关系成立,则信息处理服务器10的系统控制部14将检索词彼此设为存在同义词关系,并将检索词彼此如图10所示,存储在同义词DB12d。
如此般,信息处理服务器10作为参照删除用字符存储机构,当在删除特定字符的 第1检索词与第2检索词之间成立包含关系时,将第1检索词与第2检索词作为同义词而存储的存储机构的一例发挥功能。
在包含关系不成立的情形时(步骤S22;NO),或在步骤S23之后,信息处理服务器10判定是否存在剩余的检索词(步骤S24)。具体而言,信息处理服务器10的系统控制部14参照检索查询日志DB12a,判定是否存在尚未取得的组合的检索词。
在存在剩余的检索词的情形时(步骤S24;YES),返回步骤S20,从检索查询日志DB12a取得2个检索词。
在不存在剩余的检索词的情形时(步骤S24;NO),信息处理服务器10的系统控制部14结束同义词存储的处理。
另外,在检索词“ヒツトエンドラン(hit-and-run,击跑配合战术)”、检索词“エンドラン”的情形时,在步骤S22中,因检索词“ヒツトエンドラン”与检索词“エンドラン”所共用的字符串“エンドラン”与检索词“エンドラン”相同,故信息处理伺服器10的系统控制部14判定检索词“ヒツトエンドラン”与检索词“エンドラン”存在包含关系。
此外,在检索词“富士山”、检索词“富士△”的情形时,信息处理服务器10的系统控制部14在步骤S21中,删除字符“△”,设为检索词“富士山”、检索词“富士”。而且,在步骤S22中,因检索词“富士”与检索词“富士山”所共用的字符串“富士”与检索词“富士”相同,故信息处理服务器10的系统控制部14判定检索词“富士山”与检索词“富士△”存在包含关系。
此外,在检索词“富☆士”、检索词“富·士”的情形时,信息处理服务器10的系统控制部14在步骤S21中,删除字符“☆”与字符“·”,设为检索词“富士”、检索词“富士”。因该等检索词一致,故信息处理服务器10的系统控制部14判定存在包含关系。
另外,作为对于第1检索词及第2检索词进行的字符串处理的一例,信息处理服务器10的系统控制部14亦可不参照删除用字符DB12b,判定第1检索词及第2检索词的字符串中的一致部分与不同部分,并删除不同部分。例如,在检索词“富☆士”、检索词“富·士”的情形时,“富士”为一致部分,“☆”与“·”为不同部分。因此,删除字符“☆”与字符“·”。
此外,如图11所示,在检索词“heavy-metal rock”、检索词“heavy metal”的情形时,在步骤S22中,因共用的字符串“heavy metal”与检索词“heavy metal”相等,故信息处理服务器10的系统控制部14判定检索词“heavy-metal rock”与检索词“heavy  metal”存在包含关系。
此外,在检索词“hit-and-run”、检索词“and-run”的情形时,在步骤S22中,因共用的字符串“and-run”与检索词“and-run”相等,故信息处理服务器10的系统控制部14判定检索词“hit-and-run”与检索词“and-run”存在包含关系。
此外,在检索词“Mt.Fuji”、检索词“△Fuji”的情形时,信息处理服务器10的系统控制部14在步骤S21中,删除字符“△”,设为检索词“Mt.Fuji”、检索词“Fuji”。
在检索词“Fu☆ji”、检索词“Fu·ji”的情形时,信息处理服务器10的系统控制部14在步骤S21中,删除字符“☆”与字符“·”,设为检索词“Fuji”、检索词“Fuji”。因该等检索词一致,故信息处理服务器10的系统控制部14判定存在包含关系。
此外,在检索词“ヘビ一メタル”、检索词“ヘビ·メタ”的情形时,若信息处理伺服器10的系统控制部14在步骤S21中,删除“一”及“·”,则成为检索词“ヘビメタル”、检索词“ヘビメタ”。检索词“ヘビメタ”因包含在检索词“ヘビメタル”,故判定检索词“ヘビ一メタル”、检索词“ヘビ·メタ”存在包含关系。
此外,在检索词“heavy-metal rock”、检索词“heavy-metal”的情形时,若信息处理服务器10的系统控制部14在步骤S21中,删除“-”,则成为检索词“heavymetal rock”、检索词“heavymetal”。检索词“heavymetal”因包含在检索词“heavymetal rock”,故判定检索词“heavy-metal rock”与检索词“heavy-metal”存在包含关系。
以上,根据本实施方式,参照检索查询日志DB12a(检索词存储机构的一例),取得第1检索词及第2检索词,对取得的第1检索词及第2检索词的字符串进行处理,当在处理该字符串的第1检索词与第2检索词之间成立包含关系时,将第1检索词与第2检索词作为同义词而存储,由此可根据用于检索的检索词而生成同义词辞典。
此外,参照检索查询日志DB12a(检索词存储机构的一例),取得第1检索词及第2检索词,参照预先存储有用以从检索词中删除特定字符的字符的删除用字符DB12b(删除用字符存储机构的一例),对于取得的第1检索词及第2检索词进行删除特定字符的字符串处理,当在删除特定字符的第1检索词与第2检索词之间成立包含关系时,将第1检索词与第2检索词作为同义词而存储,在该情形时,可根据用于检索的检索词而生成同义词辞典。此外,可从第1检索词或第2检索词确实地删除欲删除的字符,从而判定包含关系时的精度变高。
此外,信息处理服务器10因生成同义词辞典,故可辅助同义词辞典的生成,从而可减轻人的负担。
因从检索词中删除特定字符,故同义词的精度进一步提高。
进而,可使第1实施方式及第2实施方式的动作配合,而由信息处理服务器10构筑具有广范围的同义词的同义词辞典。
在检索词为2个以上且第1检索词与第2检索词之间具有共用的检索词的情形时,相对于已删除该共用的检索词的第1及第2检索词,当在删除特定字符时的包含关系成立时,将已删除共用的检索词的第1及第2检索词作为同义词而存储,由此,亦可删除共用的检索词而对成对检索词进行计数,因此可收集的成对检索词的数量增加,第1及第2出现次数的算出变得更加准确,同义词的精度进一步提高。
另外,信息处理服务器10亦可按照取得的第1检索词及第2检索词的字符串的顺序,进行将该第1及第2检索词的各字符进行比较的字符串处理,判定包含关系,在该包含关系成立时,将第1检索词与第2检索词作为同义词而存储。
例如,在检索词“ヘビ一メタル”、检索词“ヘビ·メタ”的情形时,比较字符串的首字符,因字符“ヘ”为共用,故信息处理伺服器10判定为其等相对应。其次,因第2个字符“ビ”为共用,故信息处理伺服器10判定为其等相对应。继而,因第3个字符“一”与字符“·”参照删除用字符DB12b而为存在于删除用字符DB12b的字符,故信息处理伺服器10加以忽略或判定为相同的删除用字符而设为其等存在对应。而且,判定第4个字符“メ”、第5个字符”タ”亦对应,因无相比较的字符,故信息处理伺服器10判定检索词“ヘビ一メタル”与检索词“ヘビ·メタ”存在包含关系。另一方面,比较字符串,在所对应的字符不同的情形时,信息处理服务器10判定不存在包含关系。此外,在相对于字符串的长度(亦可为第1检索词及第2检索词的字符串的长度的平均等),存在特定数以上所对应的字符的情形时,亦可判定存在包含关系。
如此般,信息处理服务器10按照取得的第1检索词及第2检索词的字符串的顺序,进行将该第1及第2检索词的各字符进行比较的字符串处理,判定包含关系,在该包含关系成立时,将第1检索词与第2检索词作为同义词而存储,在该情形时,可省略删除字符的步骤S21。此外,可参照删除用字符DB12b,排除特定字符,从而判定包含关系时的精度变高。
进而,本发明并不限定在所述各实施方式。所述各实施方式为例示,具有与本发明的申请专利范围的技术思想实质上相同的构成且发挥同样的作用效果者,不论为何者均包含在本发明的技术范围内。

Claims (11)

1.一种信息处理装置,其特征在于包含:
成对检索词生成机构,其参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的时刻即检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构,从与同一所述用户特定信息建立关联的所述检索时刻的间隔为特定时间以内的检索词,生成按照所述检索时刻的顺序而使所述检索时刻较早的检索词与较晚的检索词成对的成对检索词;
第1出现次数算出机构,其算出在通过所述成对检索词生成机构而生成的成对检索词中特定成对检索词出现的第1出现次数;
第2出现次数算出机构,其算出在通过所述成对检索词生成机构而生成的成对检索词中相对于所述特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数;以及
存储机构,其在通过所述第1及第2出现次数算出机构而算出的第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
2.根据权利要求1所述的信息处理装置,其特征在于:
所述存储机构在通过所述第1及第2出现次数算出机构而算出的第1出现次数与第2出现次数的差为特定范围内的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
3.根据权利要求1或2所述的信息处理装置,其特征在于:
所述成对检索词生成机构对所述较早的检索词及较晚的检索词的字符串进行处理而生成所述成对检索词。
4.根据权利要求3所述的信息处理装置,其特征在于:
所述成对检索词生成机构参照预先存储有用以从所述检索词中删除特定字符的字符的删除用字符存储机构,进行从所述较早的检索词及较晚的检索词中删除特定字符的字符串处理而生成所述成对检索词。
5.根据权利要求1或2所述的信息处理装置,其特征在于:
所述成对检索词生成机构在检索词为2个以上且所述较早的检索词与较晚的检索词之间具有共用的检索词的情形时,根据已删除共用的检索词的较早的检索词及较晚的检索词而生成所述成对检索词。
6.根据权利要求1或2所述的信息处理装置,其特征在于:
该信息处理装置更包括参照所述检索词存储机构而取得第1检索词及第2检索词的检索词取得机构;且
所述存储机构对通过所述检索词取得机构而取得的第1检索词及第2检索词的字符串进行处理,当在该字符串已被处理的第1检索词与第2检索词之间成立包含关系时,将所述第1检索词与第2检索词作为同义词而存储。
7.根据权利要求6所述的信息处理装置,其特征在于:
所述存储机构按照通过所述检索词取得机构而取得的第1检索词及第2检索词的字符串的顺序,进行将该第1及第2检索词的各字符进行比较的字符串处理而判定包含关系,在该包含关系成立时,将所述第1检索词与第2检索词作为同义词而存储。
8.根据权利要求6所述的信息处理装置,其特征在于:
所述存储机构参照预先存储有用以从所述检索词中删除特定字符的字符的删除用字符存储机构,对通过所述检索词取得机构而取得的第1检索词及第2检索词进行删除特定字符的字符串处理,当在已删除该特定字符的第1检索词与第2检索词之间成立包含关系时,将所述第1检索词与第2检索词作为同义词而存储。
9.根据权利要求6所述的信息处理装置,其特征在于:
所述存储机构在检索词为2个以上且所述第1检索词与第2检索词之间具有共用的检索词的情形时,相对于已删除该共用的检索词的第1及第2检索词,当在删除所述特定字符时的包含关系成立时,将删除所述共用的检索词的第1及第2检索词作为同义词而存储。
10.根据权利要求1或2所述的信息处理装置,其特征在于:
所述存储机构参照作为所述同义词而存储的检索词的同义词数据库,将与作为同义词而存储的2个检索词中的至少一个检索词存在同义词的关系的检索词连同所述2个检索词一并作为同义词加以存储。
11.一种信息处理方法,其是进行信息处理的信息处理装置的信息处理方法,其特征在于包含:
成对检索词生成步骤,参照将用以特定使用检索词的用户的用户特定信息与用以特定使用该检索词执行检索处理的时刻即检索时刻的检索时刻特定信息建立关联而存储该检索词的检索词存储机构,从与同一所述用户特定信息建立关联的所述检索时刻的间隔为特定时间以内的检索词,生成按照所述检索时刻的顺序而使所述检索时刻较早的检索词与较晚的检索词成对的成对检索词;
第1出现次数算出步骤,算出在所述成对检索词生成步骤中生成的成对检索词中特定成对检索词出现的第1出现次数;
第2出现次数算出步骤,算出在所述成对检索词生成步骤中生成的成对检索词中相对于所述特定成对检索词而使检索时刻的顺序相反的倒序成对检索词出现的第2出现次数;以及
存储步骤,当在所述第1及第2出现次数算出步骤中算出的第1出现次数与第2出现次数的大小关系满足特定条件的情形时,将所述较早的检索词与较晚的检索词作为同义词而存储。
CN201280003535.3A 2011-11-24 2012-08-10 信息处理装置及信息处理方法 Active CN103370708B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011256055A JP5113936B1 (ja) 2011-11-24 2011-11-24 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
JP2011-256055 2011-11-24
PCT/JP2012/070442 WO2013077039A1 (ja) 2011-11-24 2012-08-10 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
CN103370708A CN103370708A (zh) 2013-10-23
CN103370708B true CN103370708B (zh) 2015-07-08

Family

ID=47676456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280003535.3A Active CN103370708B (zh) 2011-11-24 2012-08-10 信息处理装置及信息处理方法

Country Status (9)

Country Link
US (1) US9418102B2 (zh)
EP (1) EP2618277B1 (zh)
JP (1) JP5113936B1 (zh)
KR (1) KR101339498B1 (zh)
CN (1) CN103370708B (zh)
BR (1) BR112013004595B1 (zh)
ES (1) ES2530365T3 (zh)
TW (1) TWI529546B (zh)
WO (1) WO2013077039A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5449466B2 (ja) * 2012-06-29 2014-03-19 楽天株式会社 情報処理システム、類似カテゴリ特定方法、およびプログラム
CN103870461B (zh) * 2012-12-10 2019-09-10 腾讯科技(深圳)有限公司 主题推荐方法、装置和服务器
US20170116180A1 (en) * 2015-10-23 2017-04-27 J. Edward Varallo Document analysis system
JP6894875B2 (ja) * 2018-08-29 2021-06-30 ヤフー株式会社 ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム。
JP7212655B2 (ja) * 2020-09-15 2023-01-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111678A1 (en) * 2002-10-01 2004-06-10 Masaaki Hara Method for retrieving documents
US20080183463A1 (en) * 2003-08-11 2008-07-31 Paul Deane Cooccurrence and constructions
US20090044105A1 (en) * 2007-08-08 2009-02-12 Nec Corporation Information selecting system, method and program

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4736296A (en) * 1983-12-26 1988-04-05 Hitachi, Ltd. Method and apparatus of intelligent guidance in natural language
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
JPH09251939A (ja) * 1996-03-18 1997-09-22 Toshiba Corp 電子ビーム描画装置の調整方法
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
JP4082059B2 (ja) * 2002-03-29 2008-04-30 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US6691103B1 (en) * 2002-04-02 2004-02-10 Keith A. Wozny Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
JP3677779B2 (ja) * 2003-04-04 2005-08-03 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
JP2005141449A (ja) * 2003-11-06 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> 情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体
JP2005250762A (ja) 2004-03-03 2005-09-15 Mitsubishi Electric Corp 辞書生成装置、辞書生成方法および辞書生成プログラム
JP2005316699A (ja) * 2004-04-28 2005-11-10 Hitachi Ltd コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム
US7865495B1 (en) * 2004-10-06 2011-01-04 Shopzilla, Inc. Word deletion for searches
JP2006141449A (ja) * 2004-11-16 2006-06-08 Aruze Corp 遊技機
JP2006316699A (ja) * 2005-05-12 2006-11-24 Hitachi Ltd 車両の制御装置
KR20070047544A (ko) * 2005-11-02 2007-05-07 김정진 유사도를 적용하여 특허 문서를 검색하는 방법 및 그시스템
US8489574B2 (en) * 2006-06-12 2013-07-16 Zalag Corporation Methods and apparatuses for searching content
US20110066624A1 (en) * 2006-08-01 2011-03-17 Divyank Turakhia system and method of generating related words and word concepts
US7552112B2 (en) * 2006-09-18 2009-06-23 Yahoo! Inc. Discovering associative intent queries from search web logs
JP4240329B2 (ja) * 2006-09-21 2009-03-18 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US7577643B2 (en) * 2006-09-29 2009-08-18 Microsoft Corporation Key phrase extraction from query logs
JP2009003515A (ja) * 2007-06-19 2009-01-08 Mitsubishi Electric Corp 情報検索装置
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
US8171029B2 (en) * 2007-10-05 2012-05-01 Fujitsu Limited Automatic generation of ontologies using word affinities
US8290975B2 (en) * 2008-03-12 2012-10-16 Microsoft Corporation Graph-based keyword expansion
JP2009258860A (ja) * 2008-04-14 2009-11-05 Sony Corp 情報処理装置および方法、記録媒体、プログラム、並びに情報処理システム
JP4640554B2 (ja) * 2008-08-26 2011-03-02 Necビッグローブ株式会社 サーバ装置、情報処理方法およびプログラム
US20100169316A1 (en) * 2008-12-30 2010-07-01 Yahoo! Inc. Search query concept based recommendations
US8250072B2 (en) * 2009-03-06 2012-08-21 Dmitri Asonov Detecting real word typos
JP5514486B2 (ja) * 2009-08-03 2014-06-04 株式会社日立製作所 Webページの関連性抽出方法、装置、及びプログラム
JP5610197B2 (ja) * 2010-05-25 2014-10-22 ソニー株式会社 検索装置、検索方法、及び、プログラム
US20130085854A1 (en) * 2010-06-30 2013-04-04 Rakuten, Inc. Information processing device, information processing method, information processing program and recording medium
US9235566B2 (en) * 2011-03-30 2016-01-12 Thinkmap, Inc. System and method for enhanced lookup in an online dictionary
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040111678A1 (en) * 2002-10-01 2004-06-10 Masaaki Hara Method for retrieving documents
US20080183463A1 (en) * 2003-08-11 2008-07-31 Paul Deane Cooccurrence and constructions
US20090044105A1 (en) * 2007-08-08 2009-02-12 Nec Corporation Information selecting system, method and program

Also Published As

Publication number Publication date
JP5113936B1 (ja) 2013-01-09
KR20130070632A (ko) 2013-06-27
EP2618277A4 (en) 2014-02-12
EP2618277B1 (en) 2014-11-12
BR112013004595B1 (pt) 2020-12-08
CN103370708A (zh) 2013-10-23
US20130173619A1 (en) 2013-07-04
JP2013109701A (ja) 2013-06-06
ES2530365T3 (es) 2015-03-02
EP2618277A1 (en) 2013-07-24
BR112013004595A2 (pt) 2016-08-16
KR101339498B1 (ko) 2013-12-10
TWI529546B (zh) 2016-04-11
TW201324212A (zh) 2013-06-16
WO2013077039A1 (ja) 2013-05-30
US9418102B2 (en) 2016-08-16

Similar Documents

Publication Publication Date Title
US10360611B2 (en) Instant messaging robot to provide product information
US9747342B2 (en) Information processing apparatus, information processing method, information processing program, and recording medium
CN103370708B (zh) 信息处理装置及信息处理方法
US9858609B2 (en) Information processing apparatus, information processing method, and information processing program
US20130304469A1 (en) Information processing method and apparatus, computer program and recording medium
US10402479B2 (en) Method, server, browser, and system for recommending text information
CN101957834A (zh) 一种基于用户特征进行内容推荐的方法与设备
CN107526718B (zh) 用于生成文本的方法和装置
CN102687160A (zh) 应答判定装置、应答判定方法、应答判定程序、记录介质以及应答判定系统
CN104346396A (zh) 一种即时通讯客户端的数据处理方法、装置、终端及系统
KR20060088845A (ko) 키워드 관련 광고 시스템 및 그 방법
EP2720156A1 (en) Information processing device, information processing method, program for information processing device, and recording medium
CN110209921B (zh) 媒体资源的推送方法和装置、以及存储介质和电子装置
US20120005021A1 (en) Selecting advertisements using user search history segmentation
JP2008176782A (ja) 関心事を反映して抽出した情報提供方法及びシステム
CN107679030B (zh) 基于用户操作行为数据提取同义词的方法和装置
US10242106B2 (en) Enhance search assist system&#39;s freshness by extracting phrases from news articles
CN104142938A (zh) 一种微博的数据处理方法、装置及系统
US9978092B2 (en) Information processing device, information processing method, program for information processing device, and recording medium
CN112308016A (zh) 表情图像获取方法、装置、电子设备及存储介质
JP2009265849A (ja) ネットオークション相場検索システム、方法及びコンピュータプログラム
CA2809315C (en) Forming search query word pair thesaurus based on search time and count
CN117194814A (zh) 基于人工智能的内容展示方法、装置、设备以及存储介质
US10430809B2 (en) Information processing apparatus and information processing method for modifying a list associated with a user
JP5639315B1 (ja) 検索装置、サジェストワード提示方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: Tokyo, Japan

Patentee after: Lotte Group Co.,Ltd.

Address before: Tokyo

Patentee before: Rakuten, Inc.

CP03 Change of name, title or address