JP2015197722A - 文書検索装置、文書検索方法、プログラム、及び、文書検索システム - Google Patents

文書検索装置、文書検索方法、プログラム、及び、文書検索システム Download PDF

Info

Publication number
JP2015197722A
JP2015197722A JP2014074159A JP2014074159A JP2015197722A JP 2015197722 A JP2015197722 A JP 2015197722A JP 2014074159 A JP2014074159 A JP 2014074159A JP 2014074159 A JP2014074159 A JP 2014074159A JP 2015197722 A JP2015197722 A JP 2015197722A
Authority
JP
Japan
Prior art keywords
document
similarity
search
recommended
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014074159A
Other languages
English (en)
Other versions
JP6390139B2 (ja
Inventor
侑吾 西川
Yugo Nishikawa
侑吾 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2014074159A priority Critical patent/JP6390139B2/ja
Publication of JP2015197722A publication Critical patent/JP2015197722A/ja
Application granted granted Critical
Publication of JP6390139B2 publication Critical patent/JP6390139B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが指定した文書に対して、類似性に加えて、意外性や多様性のある文書を検索する文書検索装置等を提供する。【解決手段】文書検索装置1は、ユーザ端末2から検索対象文書の選択を受付けると、検索対象文書の特徴を表現する文書ベクトルを生成する。続いて、カテゴリ情報DB5に登録される各カテゴリに属する文書群と検索対象文書との類似度を算出し、文書情報DB6に登録される各文書と検索対象文書との類似度を算出する。文書検索装置1は、これらに基づいてユーザが選択した文書と類似性が低いカテゴリに属するが、文書間で内容が類似する文書を検索して、検索された文書を推薦先文書としてユーザ端末2に提示する。【選択図】図7

Description

本発明は、ユーザに適した文書や書籍等のコンテンツを検索する文書検索技術に関するものである。
近年、文書や書籍等を選択したユーザに対して、ユーザの嗜好に応じた文書を推薦するマッチング方法が研究開発されている。既存の主なマッチング方法として、内容が類似する文書を推薦する方法(文書ベース)や、同一の文書を選択した他のユーザが所望した文書を推薦する方法(協調ベース)や、ユーザの属性に応じた文書を推薦する方法(ルールベース)等がある。
一方で、特許文献1には、文書から意外性のある文章を抽出する技術が記載されている。
特開2011−95905号公報
しかしながら、既存のマッチング方法を用いた場合、同一シリーズ等の既知の文書が提示されることや、類似性が高すぎる文書が複数提示されることが多く、推薦結果に意外性や多様性が無いという課題があった。
特許文献1には、ユーザが選択した文書(以下、検索対象文書と表記)に登場する各単語のカテゴリ内での登場回数に基づいて、検索対象文書内の文章に意外性スコアを付与するという記載はあるが、意外性スコアに基づいて文書を検索するといった記載は無い。
本発明は、前述した問題点に鑑みてなされたもので、その目的とすることは、ユーザが指定した文書に対して、類似性に加えて、意外性や多様性のある文書を検索する文書検索装置等を提供することである。
前述の課題を解決するために第1の発明は、検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索装置であって、推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段と、推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段と、前記第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出手段と、前記第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出手段と、前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索手段と、を備えることを特徴とする文書検索装置である。
第1の発明により、起点となる検索対象文書に対して、意外性や多様性のある推薦文書を検索することができる。
なお、「分類」とは、同一の種類の推薦文書を集めたもので、実施形態におけるカテゴリに相当する。
また、前記検索手段は、前記文書類似度と前記分類類似度との差分を取り、算出された差分値を参照して抽出することが望ましい。
これにより、文書の類似性と分類の類似性との関係に基づいて、推薦文書を抽出することができるため、意外性や多様性のある推薦文書を検索することができる。
また、前記差分値が予め設定された閾値を超えるものを抽出することが望ましい。
これにより、文書類似度は高いが分類類似度の低い推薦文書を抽出することができるため、意外性や多様性のある推薦文書を検索することができる。
また、前記検索手段は、前記分類類似度に対して所定係数を乗じて差分を取ることが望ましい。
これにより、分類の類似性を所定係数により調整して、分類がある程度類似している推薦文書を検索したり、分類が似ていない推薦文書を検索したりすることができる。
前記検索手段は、予め設定された閾値を満たす前記文書類似度及び/又は前記分類類似度を用いて前記推薦文書を検索することが望ましい。
これにより、類似していない文書を除外したり、類似性が高い分類を除外したりすることができるため、意外性や多様性のある推薦文書を検索することができる。
第2の発明は、検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索方法であって、推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出ステップと、推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出ステップと、前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索ステップと、を含むことを特徴とする文書検索方法である。
第2の発明により、起点となる検索対象文書に対して、意外性や多様性のある推薦文書を検索することができる。
第3の発明は、コンピュータを、検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索装置として機能させるためのプログラムであって、前記コンピュータを、推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段、推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段、前記第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出手段、前記第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出手段、前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索手段、として機能させるためのプログラムである。
第3の発明により、起点となる検索対象文書に対して、意外性や多様性のある推薦文書を検索することができる。
第4の発明は、ユーザ端末と、検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索装置とがネットワークを介して接続された文書検索システムであって、前記ユーザ端末は、前記検索対象文書の入力を受付ける入力受付手段と、前記検索対象文書を前記文書検索装置に送信する送信手段と、前記文書検索装置から検索結果を受信して表示する表示手段と、を備え、前記文書検索装置は、推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段と、推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段と、前記ユーザ端末から前記検索対象文書を受信する受信手段と、前記第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出手段と、前記第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出手段と、前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索手段と、抽出した前記推薦文書を前記ユーザ端末へ送信する送信手段と、を備えることを特徴とする文書検索システムである。
本発明の文書検索装置等によって、ユーザが指定した文書に対して、類似性に加えて、意外性や多様性のある文書を検索することができる。
本実施形態に係る文書検索システムのシステム構成の一例を示す図 本実施形態に係る文書検索サービスの概要を説明する図 本実施形態に係る文書検索装置(ユーザ端末)のハードウエアの構成例を示すブロック図 カテゴリ情報データベースに記憶されるカテゴリ情報の一例を示す図 文書情報データベースに記憶される文書情報の一例を示す図 文書検索装置に一時的に保持される情報の一例を示す図 文書推薦処理の流れを示すフローチャート 文書ベクトルを説明する図 文書推薦画面の一例を示す図 カテゴリ類似度算出処理の流れを示すフローチャート 文書類似度算出処理の流れを示すフローチャート 意外性スコア算出処理の流れを示すフローチャート ネットワークに接続されていない文書検索装置の文書推薦処理の流れを示すフローチャート
以下、図面に基づいて、本発明の好適な実施形態について詳細に説明する。
まず、図1〜図6を参照して本実施形態の構成について説明する。
図1は、本実施形態に係る文書検索システム100のシステム構成の一例を示す図である。図1に示す様に、文書検索システム100は、文書検索装置1と、1又は複数のユーザ端末2(2a、2b)がネットワーク3を介して互いに通信接続されて構成される。
本実施形態では、ユーザ端末2を利用するユーザが選択した文書(検索対象文書)に対して、検索対象文書との類似性等に基づいて文書情報データベース6に登録される文書を検索して前記ユーザ端末2に提示する文書推薦サービスにて本発明に係る文書検索システム100を利用する例について説明する。図2は、文書推薦サービスの概要を説明する図である。
尚、本発明において文書とは、電子化された書籍、雑誌、記事、論文、その他の書類、インターネットで公開される記事コンテンツ等である。
図2に示す様に、文書推薦方法a(従来の文書推薦サービス)では、検索対象文書10(文書A)と類似度の高い文書をデータベースから検索して推薦する。この場合、検索対象文書10と推薦先文書11(文書B、文書C、文書D)との類似性が高く、また、検索対象文書10と推薦先文書が属するカテゴリ12(カテゴリX)との類似性も高くなるという結果となる。従って、文書推薦方法aにおいては、推薦先文書11と検索対象文書10とは分類が同じで内容も似ていることから、意外性の少ない文書をユーザに提示することとなる。
一方、文書推薦方法bでは、検索対象文書10(文書A)と類似度の低い文書をデータベースから検索して推薦する。この場合、検索対象文書10と推薦先文書11(文書E)との類似性は低く、また、検索対象文書10と推薦先文書が属するカテゴリ12(カテゴリY)との類似性も低くなるという結果となる。従って、文書推薦方法bにおいては、推薦先文書11と検索対象文書10とは分類が遠く内容も似ていないことから、無関係の文書をユーザに提示することとなる。
本発明に係る文書推薦サービスとは文書推薦方法cに示すものであり、検索対象文書10(文書A)と類似性は高く、推薦先文書が属するカテゴリ12(カテゴリZ)との類似性は低い文書(文書F)をデータベースから検索して推薦する。これにより、分類は違うが内容が似ている文書、即ち、意外性のある文書をユーザに提示することができる。
図1の説明に戻る。
文書検索装置1は、文書推薦サービスを提供するサイトのサーバ装置であり、文書検索装置1の記憶部22は文書が属するカテゴリ情報を管理するカテゴリ情報データベース(DB)5、文書情報を管理する文書情報データベース(DB)6等を保持する。また、文書検索装置1は、文書推薦サービスを利用するユーザ端末2の識別情報と文書(例えば、書籍)購入(又は、閲覧等)履歴とを紐付けて管理するユーザの履歴情報を保持しても良い。詳細は後述する。
ユーザ端末2は、文書推薦サービスを利用するユーザが利用するコンピュータであり、文書検索装置1から送信される文書推薦画面80(図9参照)等を表示する。ユーザ端末2は、汎用なコンピュータに代えて、携帯端末、モバイル端末等であっても良い。
図3は、本発明の実施形態に係る文書検索装置1(ユーザ端末2)を実現するコンピュータのハードウエア構成図である。コンピュータは、図3に示すように、例えば、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F部27等が、バス28を介して接続されて構成される。
制御部21は、CPU(Central Processing Unit)、ROM(Read Only
Memory)、RAM(Random Access Memory)等により構成される。
CPUは、記憶部22、ROM、記憶媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、文書検索装置1(ユーザ端末2)が行う後述する処理を実現する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持する。RAMは、揮発性メモリであり、ロードしたプログラムや、データ等を一時的に保持すると共に、制御部21が各処理を行うために使用するワークエリアを備える。
記憶部22は、HDD(Hard Disk Drive)等であり、制御部21が実行するプログラムや、プログラム実行に必要なデータ、OS(Operating System)等が格納されている。これらのプログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行される。
メディア入出力部23は、例えば、CDドライブ、DVDドライブ、MOドライブ、フロッピー(登録商標)ディスクドライブ、等のメディア入出力装置であり、画像等のデータの入出力を行う。
通信制御部24は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク3間の通信を媒介する通信インターフェースであり、ネットワーク3を介して、他の装置間との通信制御を行う。ネットワーク3は有線、無線を問わない。
入力部25は、データ入力を行い、例えば、キーボード、マウスなどのポインティングデバイス、テンキーなどの入力装置を有する。入力されたデータを制御部21へ出力する。
表示部26は、例えば、CRTモニタ、液晶パネル等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路(ビデオアダプタ等)で構成され、制御部21の制御により入力された表示情報をディスプレイ装置上に表示させる。
尚、入力部25と表示部26は、それらの機能が一体化した、例えば、タッチパネル付ディスプレイであっても良い。
周辺機器I/F部(インターフェース)27は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部27を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部27は、USBやIEEE1394やRS−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は、有線、無線を問わない。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
図4は、カテゴリ情報データベース5が取り扱うカテゴリ情報50の一例を示す図である。図4に示すように、カテゴリ情報50とは、各カテゴリの「カテゴリコード51」、「カテゴリ名52」、「カテゴリ説明文53」、「特徴語54」等の情報を含むものである。カテゴリコード51とは、カテゴリを一意に識別する識別子であり、例えば、書籍を分類する日本十進法のコード番号や、記事文書を分類するために登録されたジャンル等である。カテゴリ名52とは、カテゴリの内容を表す見出しである。カテゴリ説明文53とは、カテゴリを説明する文章であり、特徴語54とはカテゴリの内容を表す単語(キーワード)とその重要度(後述する)を示すものである。
尚、カテゴリ情報50は特徴語54を保持せずにカテゴリ説明文53や、カテゴリに属する各文書の特徴語65に基づいて、後述する文書推薦処理を実行するごとにカテゴリ情報50の特徴語54を抽出しても良い。
図5は、文書情報データベース6が取り扱う文書情報60の一例を示す図である。図5に示すように、文書情報とは、各文書の「文書コード61」、「文書名62」、「カテゴリコード63」、「文書説明文64」、「特徴語65」等の情報を含むものである。文書コード61とは、文書を一意に識別する識別子である。文書名62とは、文書のタイトルである。カテゴリコード63とは、文書が属するカテゴリを示すものであり、カテゴリ情報データベース5のカテゴリコード51に紐付く。文書情報データベース6に登録される文書は、予め1つ以上のカテゴリに分類され登録されている。
文書説明文64とは文書の内容を表す紹介文であり、特徴語65とは文書の内容を表す単語(キーワード)とその重要度(後述する)を示すものである。尚、文書情報60は特徴語65を保持せずに文書説明文64や文書の本文から後述する文書推薦処理を実行するごとに特徴語65を抽出しても良い。
図6は、文書推薦処理において文書検索装置1に一時的に保持される情報の一例を示す図である。図6の(a)に示す様に、文書検索装置1の制御部21のRAM等は、「カテゴリコード71」と、カテゴリ類似度算出処理(図7のS106)にて算出される「検索対象文書とのカテゴリ類似度72」とを紐付けてカテゴリ類似度情報56として記憶する。カテゴリコード71は、カテゴリ情報データベース5のカテゴリコード51に紐付く。
図6の(b)に示す様に、文書検索装置1の制御部21のRAM等は、「文書コード73」と、文書類似度算出処理(図7のS107)にて算出される「検索対象文書との文書類似度74」と、意外性スコア算出処理(図7のS108)にて算出される「検索対象文書との意外性スコア75」とを紐付けて文書類似度情報57として記憶する。文書コード73は、文書情報データベース6の文書コード61に紐付く。
[文書推薦処理]
続いて、図7〜図13を参照して、文書検索装置1とユーザ端末2が実行する文書推薦処理について説明する。
図7は、文書推薦処理の一例を示すフローチャートである。
ユーザ端末2が文書検索装置1にアクセスすると、文書検索装置1の制御部21は、ユーザ端末2に文書選択受付画面(図示せず)を送信する。文書選択受付画面には、文書情報DB6に予め登録される文書が一覧表示またはサムネイル表示され、ユーザ端末2の制御部21は、ユーザ操作により文書の選択を受付ける(ステップS101)。
ユーザ端末2の制御部21は、選択を受付けた文書(検索対象文書)の文書コード61を、文書検索装置1に送信する(ステップS102)。文書検索装置1の制御部21は、検索対象文書の文書コード61を受信する(ステップS103)。
文書検索装置1の制御部21は、文書情報DB6から、受信した文書コード61に対応する特徴語65のキーワードとキーワードの出現回数を抽出し(ステップS104)、検索対象文書の文書ベクトルを生成する(ステップS105)。
具体的には、文書検索装置1の制御部21は、各文書の文書(文書名62、文書説明文64、文書の内容)に対し汎用的な形態素解析用ソフトウェアを用いて形態素解析を行い、キーワードを抽出する。抽出したキーワードのTFを算出して文書ベクトルを生成する。
なお、TF(Term-Frequency)とは、文書内にキーワードが出現する頻度(出現回数)である。
文書検索装置1の制御部21は、同一カテゴリに属する文書群との類似度を表すカテゴリ類似度をカテゴリ情報DB5に登録されるカテゴリ毎に算出し(ステップS106)、検索対象文書と他の文書との類似度を表す文書類似度を文書情報DB6に登録される文書毎に算出し(ステップS107)、検索対象文書と他の文書との意外性スコアを文書毎に算出する(ステップS108)。ステップS106〜ステップS108で実行される各処理の詳細は、後述する。
文書検索装置1の制御部21は、ステップS108で算出された検索対象文書との意外性スコア75(文書類似度情報57に記憶される)に基づいて、意外性スコアの高い文書を文書情報DB6から検索し(ステップS109)、それらを推薦先文書11として該当するユーザ端末2に送信する(ステップS110)。
ユーザ端末2の制御部21は、文書検索装置1から送信されたデータを受信して(ステップS111)、文書推薦画面80を表示部26に表示して(ステップS112)、処理を終了する。
図9に文書推薦画面80の一例を示す。図9に示す様に、文書推薦画面80には、ユーザが選択した検索対象文書10(文書A)と文書推薦処理によって検索された推薦先文書11(文書B、文書G、文書K)とが一覧表示またはサムネイル表示される。
以上、文書推薦処理によって、文書検索装置1は、ユーザ端末2から検索対象文書の選択を受付けると、検索対象文書の特徴を表現する文書ベクトルを生成する。続いて、カテゴリ情報DB5に登録される各カテゴリに属する文書群と検索対象文書との類似度を算出し、文書情報DB6に登録される各文書と検索対象文書との類似度を算出する。文書検索装置1は、これらに基づいてユーザが選択した文書と類似性が低いカテゴリに属するが、文書間で内容が類似する文書を検索して、検索された文書を推薦先文書としてユーザ端末2に提示する。
これにより、文書検索装置1はユーザが選択した文書に対して、意外性や多様性のある文書を推薦することができる。
なお、文書推薦処理は、前述のものに限られず、その趣旨を逸脱しない範囲で変更可能である。
例えば、ステップS101〜ステップS103において、ユーザ端末2において、文書検索装置1の文書情報DB6に予め登録される文書から検索対象文書を選択させるようにしたが、ユーザ端末2において、検索対象文書として、一般的な検索窓から任意の文字列の入力を受付け、文書検索装置1が受信したり、ユーザ端末2において、作成しておいた文書を文書検索装置1へアップロード(送信)して、文書検索装置1が受信したりしてもよい。文書検索装置1は、受信した検索対象文書から、キーワードを抽出するとともに重要度を算出し、検索対象文書の文書ベクトルを生成する。
[カテゴリ類似度算出処理]
続いて、図10及び適宜図8を参照して、文書推薦処理のステップS106にて実行されるカテゴリ類似度算出処理の一例について説明する。カテゴリ類似度算出処理において、文書検索装置1の制御部21は、検索対象文書と各比較対象カテゴリとの類似度を計算する。
まず、ステップS201において、文書検索装置1の制御部21は、検索対象文書から文書ベクトルを生成する。
ステップS201における、検索対象文書の文書ベクトルの生成方法について、図8(a)を参照しながら具体的に説明する。なお、図8(a)の文書Aが本実施形態における検索対象文書に相当する。
文書検索装置1の制御部21は、文書Aの「キーワード」とそのキーワードの「出現回数」から、文書Aの文書ベクトルを生成する。
例えば、図8(a)では、「キーワード」は「月、地球、衛星、大阪、名古屋、野球」であり、「出現回数」は表に記載の数字である。このとき、文書Aの文書ベクトルVaはVa=「2、1、1、0、0、1」となる。
次に、ステップS202において、文書検索装置1の制御部22は、各比較対象のカテゴリの文書ベクトルを生成する。
比較対象のカテゴリの文書ベクトルの生成方法について、図8(b)を参照しながら具体的に説明する。図8(b)に示すように、カテゴリXが文章Bと文書Cを有するものとする。
文書検索装置1の制御部21は、文書Aの文書ベクトルVаの生成と同様に、文書Bと文書Cの「キーワード」とそのキーワードの「出現回数」から、文書Bの文書ベクトルVbと文書Cの文書ベクトルVcを生成する。
例えば、図8では、「キーワード」は「月、地球、衛星、大阪、名古屋、野球」であり、「出現回数」は表に記載の数字である。このとき、文書Bの文書ベクトルVbはVb=「1、1、2、0、0、2」となり、文書Cの文書ベクトルVcはVc=「1、0、1、0、0、0」となる。
そして、最終的に、カテゴリXの文書ベクトルは、文書Bの文書ベクトルVbと文書Cの文書ベクトルVcとの和、つまり、カテゴリXの文書ベクトルVxはVx=「2、1、3、0、0、2」となる。
上記カテゴリの文書ベクトルは、全ての比較対象カテゴリにつき、制御部22によって生成される。
そして、ステップS203において、文書検索装置1の制御部21は、ステップS201において生成した文書ベクトルVaと、ステップS202において生成した各比較対象のカテゴリの文書ベクトルとの類似度(カテゴリ類似度)を計算する。
例えば、カテゴリXの文書ベクトルVxとの類似度を算出する場合、文書検索装置1の制御部21が、文書Aの文書ベクトルVaと、カテゴリXの文書ベクトルVxとから、ベクトルVaとベクトルVxとの類似度を算出する(カテゴリ類似度)。カテゴリ類似度としては、例えば、コサイン類似度(Va・Vx)/(|Va||Vx|)を用いることができる。例えば、図8の場合、カテゴリ類似度は、約0.89となる。
また、ステップS203において、文書検索装置1の制御部21は、算出したカテゴリ類似度72と比較対象カテゴリのカテゴリコード71とを紐付けてカテゴリ類似度情報56として、文書検索装置1の記憶部22または制御部21のRAM等に記憶する。
そして、ステップS203において、検索対象文書と全ての比較対象カテゴリとの類似度を計算したら、文書検索装置1の制御部21は、処理を終了する。
以上、カテゴリ類似度算出処理によって、文書検索装置1は、同一カテゴリに属する文書群の特徴を表す文書ベクトル(カテゴリの文書ベクトル)により各カテゴリの特徴を求め、ユーザが選択した文書との類似性を数値化する。これにより推薦先コンテンツの検索の際に、ユーザが選択した文書と類似性が低いカテゴリに属するコンテンツを抽出することができる。
なお、本実施形態では、文書ベクトルの生成にTFを用いたが、これに限らず、TF−IDF(Term Frequency-Inverse Document Frequency)により文書ベクトルを生成してもよい。
[文書類似度算出処理]
続いて、図11を参照して、文書推薦処理のステップS107にて実行される文書類似度算出処理の一例について説明する。
図11は、文書類似度算出処理の一例を示すフローチャートである。
文書検索装置1の制御部21は、文書情報DB6に登録される1つの文書である比較対象文書を入力する(ステップS401)。
文書検索装置1の制御部21は、比較対象文書の特徴語65を文書情報DB6から抽出し(ステップS402)、比較対象文書の文書ベクトルを生成する(ステップS403)。文書検索装置1の制御部21は、S105にて生成した検索対象文書の文書ベクトルとステップS403にて生成した比較対象文書の文書ベクトルから、文書類似度を算出する(ステップS404)。文書類似度としては、前述したコサイン類似度を用いればよい。
文書検索装置1の制御部21は、算出した文書類似度74と比較対象文書の文書コード73とを紐付けて文書類似度情報57として、文書検索装置1の記憶部22または制御部21のRAM等に記憶して(ステップS405)、文書情報DB6に登録される全ての文書を入力したか否かを判定する(ステップS406)。
入力済みでない場合には(ステップS406のNO)、文書検索装置1の制御部21は、ステップS401に戻る。入力済みの場合には(ステップS406のYES)、文書検索装置1の制御部21は、処理を終了する。
以上、文書類似度算出処理によれば、文書検索装置1は、各文書の特徴を表現する文書ベクトルにより各文書の特徴を求め、ユーザが選択した文書との類似性を数値化する。これにより、推薦文書の検索の際に、ユーザが選択した文書と類似する文書を抽出することができる。
[意外性スコア算出処理]
続いて、図12を参照して、文書推薦処理のステップS108にて実行される意外性スコア算出処理の一例について説明する。
図12は、意外性スコア算出処理の一例を示すフローチャートである。
文書検索装置1の制御部21は、文書情報DB6に登録される1つの文書である比較対象文書を入力する(ステップS501)。
文書検索装置1の制御部21は、比較対象文書が属するカテゴリコードを検索し、カテゴリコードに基づいてカテゴリ類似度情報56から検索対象文書とのカテゴリ類似度72を抽出する(ステップS502)。
文書検索装置1の制御部21は、比較対象文書の文書コードに基づいて、文書類似度情報57から検索対象文書との文書類似度74を抽出する(ステップS503)。
文書検索装置1の制御部21は、次式(1)を用いて、比較対象文書に対する検索対象文書の意外性スコア75を算出する(ステップS504)。
Figure 2015197722
式(1)の重みづけ係数αは、検索対象文書との類似性が高い文書の内、検索対象文書と類似性が低いカテゴリに属する文書の意外性スコアが高くなるように設定される。重みづけ係数αは、カテゴリの分類数やカテゴリに属する文書数に基づいて適宜設定される値である。
文書検索装置1の制御部21は、算出した意外性スコアを該当する文書類似度情報57に記憶し(ステップS505)、文書情報DB6に登録される全ての文書を入力したか否かを判定する(ステップS506)。
入力済みでない場合には(ステップS506のNO)、文書検索装置1の制御部21は、ステップS501に戻る。入力済みの場合には(ステップS506のYES)、文書検索装置1の制御部21は、処理を終了する。
以上、意外性スコア算出処理によれば、文書検索装置1は、検索対象文書との類似性が高い文書の内、検索対象文書と類似性が低いカテゴリに属する文書を検索するための意外性スコアを算出することができる。これにより、推薦文書の検索の際に、ユーザが選択した文書に対して意外性スコアの高い文書を文書情報DB6から抽出して、ユーザに意外性、多様性のある文書を提示することができる。
尚、文書推薦処理のステップS101でユーザより選択を受付ける文書は、文書情報DB6に未登録の文書であっても良い。例えば、ユーザが取得した記事文書、ユーザが作成した文書等であっても良い。その場合は、文書検索装置1の制御部21は、その受付けた文書の内容自体に基づいて、特徴語を抽出して(ステップS104)、文書ベクトルを生成する(ステップS105)。
また、文書推薦処理のステップS101でユーザより選択を受付ける文書は、文書検索装置1の記憶部22等に予め記憶されるユーザの履歴情報(例えば、文書の購入履歴等)に基づいて、決定されても良い。その場合は、文書検索装置1の制御部21は、履歴情報に基づいて決定された1又は複数の検索対象文書から、特徴語を抽出して(ステップS104)、文書ベクトルを生成する(ステップS105)。
また、文書検索装置1は、ネットワークに接続せず単体でも用いることができる。図13は、ネットワークに接続されていない文書検索装置1aの文書推薦処理の一例を示すフローチャートである。
文書検索装置1aの制御部21は、ユーザから検索対象文書の入力を受付ける(ステップS601)。
ステップS602〜ステップS607は、図7に示した文書検索装置1の文書推薦処理のステップS104〜ステップS109と同一である。
そして、文書検索装置1の制御部21は、抽出された意外性スコアの高い文書を、文書推薦画面に表示する(ステップS608)。
以上、添付図面を参照しながら、本発明に係る文書検索システム100等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される
1………文書検索装置
2(2a、2b)………ユーザ端末
3………ネットワーク
5………カテゴリ情報DB
6………文書情報DB
21………制御部
22………記憶部
23………メディア入出力部
24………通信制御部
25………入力部
26………表示部
27………周辺機器I/F部
50………カテゴリ情報
56………カテゴリ類似度情報
57………文書類似度情報
60………文書情報
100………文書検索システム

Claims (8)

  1. 検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索装置であって、
    推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段と、
    推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段と、
    前記第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出手段と、
    前記第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出手段と、
    前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索手段と、
    を備えることを特徴とする文書検索装置。
  2. 前記検索手段は、前記文書類似度と前記分類類似度との差分を取り、算出された差分値を参照して抽出する
    ことを特徴とする請求項1に記載の文書検索装置。
  3. 前記差分値が予め設定された閾値を超えるものを抽出する
    ことを特徴とする請求項2記載の文書検索装置。
  4. 前記検索手段は、前記分類類似度に対して所定係数を乗じて差分を取る
    ことを特徴とする請求項2に記載の文書検索装置。
  5. 前記検索手段は、予め設定された閾値を満たす前記文書類似度及び/又は前記分類類似度を用いて前記推薦文書を検索する
    ことを特徴とする請求項1から3のいずれか1項に記載の文書検索装置。
  6. 検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索方法であって、
    推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出ステップと、
    推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出ステップと、
    前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索ステップと、
    を含むことを特徴とする文書検索方法。
  7. コンピュータを、検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索装置として機能させるためのプログラムであって、
    前記コンピュータを、
    推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段、
    推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段、
    前記第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出手段、
    前記第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出手段、
    前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索手段、
    として機能させるためのプログラム。
  8. ユーザ端末と、検索対象となる検索対象文書と関連性のある推薦文書を検索する文書検索装置とがネットワークを介して接続された文書検索システムであって、
    前記ユーザ端末は、
    前記検索対象文書の入力を受付ける入力受付手段と、
    前記検索対象文書を前記文書検索装置に送信する送信手段と、
    前記文書検索装置から検索結果を受信して表示する表示手段と、
    を備え、
    前記文書検索装置は、
    推薦文書の文書ごとに特徴語を管理し、記憶する第1の記憶手段と、
    推薦文書の分類ごとに特徴語を管理し、記憶する第2の記憶手段と、
    前記ユーザ端末から前記検索対象文書を受信する受信手段と、
    前記第1の記憶手段を参照して、前記対象文書と推薦文書との文書単位での類似度である文書類似度を算出する文書類似度算出手段と、
    前記第2の記憶手段を参照して、前記対象文書と推薦文書との分類単位での類似度である分類類似度を算出する分類類似度算出手段と、
    前記文書類似度と前記分類類似度を用いて前記推薦文書を抽出する検索手段と、
    抽出した前記推薦文書を前記ユーザ端末へ送信する送信手段と、
    を備えることを特徴とする文書検索システム。


JP2014074159A 2014-03-31 2014-03-31 文書検索装置、文書検索方法、プログラム、及び、文書検索システム Active JP6390139B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014074159A JP6390139B2 (ja) 2014-03-31 2014-03-31 文書検索装置、文書検索方法、プログラム、及び、文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014074159A JP6390139B2 (ja) 2014-03-31 2014-03-31 文書検索装置、文書検索方法、プログラム、及び、文書検索システム

Publications (2)

Publication Number Publication Date
JP2015197722A true JP2015197722A (ja) 2015-11-09
JP6390139B2 JP6390139B2 (ja) 2018-09-19

Family

ID=54547381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014074159A Active JP6390139B2 (ja) 2014-03-31 2014-03-31 文書検索装置、文書検索方法、プログラム、及び、文書検索システム

Country Status (1)

Country Link
JP (1) JP6390139B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091270A (ja) * 2015-11-11 2017-05-25 大日本印刷株式会社 情報処理装置、情報処理システム、及びプログラム
JP2017201478A (ja) * 2016-05-06 2017-11-09 日本電信電話株式会社 キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JP2018013925A (ja) * 2016-07-20 2018-01-25 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
KR101866411B1 (ko) * 2016-09-06 2018-06-19 한양대학교 산학협력단 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치
JP2020095521A (ja) * 2018-12-13 2020-06-18 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びプログラム
CN112015864A (zh) * 2020-08-26 2020-12-01 深圳市金蝶天燕云计算股份有限公司 信息查询方法及相关设备
CN117874827A (zh) * 2024-03-12 2024-04-12 武汉华工安鼎信息技术有限责任公司 一种涉密文件的管理方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276487A (ja) * 1999-03-26 2000-10-06 Mitsubishi Electric Corp 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP2002099572A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体
JP2008158590A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276487A (ja) * 1999-03-26 2000-10-06 Mitsubishi Electric Corp 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP2002099572A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体
JP2008158590A (ja) * 2006-12-20 2008-07-10 Oki Electric Ind Co Ltd 文書選択装置及び文書選択プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091270A (ja) * 2015-11-11 2017-05-25 大日本印刷株式会社 情報処理装置、情報処理システム、及びプログラム
JP2017201478A (ja) * 2016-05-06 2017-11-09 日本電信電話株式会社 キーワード評価装置、類似度評価装置、検索装置、評価方法、検索方法、及びプログラム
JP2018013925A (ja) * 2016-07-20 2018-01-25 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
KR101866411B1 (ko) * 2016-09-06 2018-06-19 한양대학교 산학협력단 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치
JP2020095521A (ja) * 2018-12-13 2020-06-18 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7284371B2 (ja) 2018-12-13 2023-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、及びプログラム
CN112015864A (zh) * 2020-08-26 2020-12-01 深圳市金蝶天燕云计算股份有限公司 信息查询方法及相关设备
CN117874827A (zh) * 2024-03-12 2024-04-12 武汉华工安鼎信息技术有限责任公司 一种涉密文件的管理方法、设备及存储介质

Also Published As

Publication number Publication date
JP6390139B2 (ja) 2018-09-19

Similar Documents

Publication Publication Date Title
JP6390139B2 (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
US7769771B2 (en) Searching a document using relevance feedback
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US10002183B2 (en) Resource efficient document search
CN106095738B (zh) 推荐表单片段
CN103279513A (zh) 产生内容标签的方法、提供多媒体内容信息的方法及装置
JP5494126B2 (ja) 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
US20150339387A1 (en) Method of and system for furnishing a user of a client device with a network resource
JP2018206361A (ja) ユーザ指向トピック選択及びブラウジングのためのシステム及び方法、複数のコンテンツ項目を表示する方法、プログラム、及びコンピューティングデバイス
JP5048852B2 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP6442918B2 (ja) 専門家検索装置、専門家検索方法および専門家検索プログラム
JP5556711B2 (ja) カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム
US10643142B2 (en) Search term prediction
JP2015207026A (ja) 情報処理装置、レコード位置情報特定方法および情報処理プログラム
JP2020140503A (ja) 文書検索装置及び文書検索方法
JP5918714B2 (ja) 文献検索装置、文献検索方法、プログラム、および文献検索システム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2018156552A (ja) 計算機システム及び文章データの検索方法
JP2010015394A (ja) リンク先提示装置およびコンピュータプログラム
JP2012027841A (ja) 検索プログラム、検索装置、検索システム、検索方法及び記録媒体
CN112100522A (zh) 用于检索兴趣点的方法、装置、设备及介质
JP6797618B2 (ja) 検索装置、検索方法、プログラムおよび検索システム
JP7284371B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2018077654A (ja) 情報処理装置、情報処理装置の制御方法及びプログラム
JP7234078B2 (ja) 検索支援システム、学習システム、検索支援方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180806

R150 Certificate of patent or registration of utility model

Ref document number: 6390139

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150