JP6173990B2 - 検索支援装置、方法およびプログラム - Google Patents

検索支援装置、方法およびプログラム Download PDF

Info

Publication number
JP6173990B2
JP6173990B2 JP2014188230A JP2014188230A JP6173990B2 JP 6173990 B2 JP6173990 B2 JP 6173990B2 JP 2014188230 A JP2014188230 A JP 2014188230A JP 2014188230 A JP2014188230 A JP 2014188230A JP 6173990 B2 JP6173990 B2 JP 6173990B2
Authority
JP
Japan
Prior art keywords
document
scrap
keywords
update
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014188230A
Other languages
English (en)
Other versions
JP2016062195A (ja
Inventor
布目 光生
光生 布目
昌之 岡本
昌之 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014188230A priority Critical patent/JP6173990B2/ja
Priority to US14/847,961 priority patent/US10606875B2/en
Priority to CN201510572370.7A priority patent/CN105426383A/zh
Publication of JP2016062195A publication Critical patent/JP2016062195A/ja
Application granted granted Critical
Publication of JP6173990B2 publication Critical patent/JP6173990B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施形態は、検索支援装置、方法およびプログラムに関する。
インターネットの普及と、パーソナルコンピュータ、スマートフォンおよびタブレット端末などのデバイスの多様化およびコモディティ化とに伴い、Web文書を通じて情報を入手することが容易である。よって、紙媒体である新聞や雑誌で行っていた「スクラップ」に相当する操作を、Web文書などの電子化文書で実現する手段およびアプリケーションが実現されている。特に、スマートフォンおよびタブレット端末の普及により、文書中における文の選択および移動の操作が簡単となるため、容易にスクラップを取ることができる。
ある文書に関連する関連文書をスクラップとして蓄積した文書から検索する際に、システムにより関連文書が提示される場合は、表示スペースが限られるため、一般にページを縮小したサムネイル表示がなされることが多い。但し、サムネイル表示だけでは関連文書の内容を把握しにくいため、文書のタイトル、作成日時および収集日時などのプロパティ情報を提示したり、ユーザが明示的に付与したタグ情報などを添えて、ユーザが関連文書の概要を把握するための手がかりとすることがある。また、収集した複数のスクラップから文書間で共起するキーワードに基づいて、関連文書を提示する技術がある。
特開2010−79915号公報
しかし、文書間で共起するキーワードを提示しても、提示されたキーワードがユーザにとって必ずしも関連性の判断に役立つとは限らず、共起するキーワードを抽出するという観点でしか関連文書を提示できない。
本開示は、上述の課題を解決するためになされたものであり、ユーザの関心を広げるキーワードの提示を支援することができる検索支援装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る検索支援装置は、第1解析部、第1取得部、測定部、抽出部、格納部。第1解析部は、スクラップされた文書であるスクラップ文書を解析し、該スクラップ文書の元となる元文書の所在を示す所在情報を得る。第1取得部は、前記所在情報を参照し、前記元文書が更新されている場合、更新された前記元文書である更新文書を取得する。測定部は、前記元文書の第1更新頻度を測定する。抽出部は、前記スクラップ文書から1以上の第1キーワードを抽出し、前記更新文書から前記第1更新頻度に応じて設定されるキーワード抽出方式を用いて1以上の第2キーワードを抽出する。格納部は、前記スクラップ文書に対し、前記1以上の第1キーワード、前記更新文書、前記1以上の第2キーワードをそれぞれ対応付けて格納する。
本実施形態に係る検索支援装置を示すブロック図。 文書データの更新処理を示すフローチャート。 文書データ格納部に格納される文書データの一例を示す図。 関連文書提示処理を示すフローチャート。 キーワード抽出部のキーワード抽出処理を示すフローチャート。 更新パターンとキーワード抽出方式との関係性の一例を示す図。 関連文書検索部の関連文書判定処理を示すフローチャート。 提示部における関連文書およびキーワードの提示例を示す図。
以下、図面を参照しながら本実施形態に係る検索支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態に係る検索支援装置について図1のブロック図を参照して説明する。
本実施形態に係る検索支援装置100は、文書データ格納部101、スクラップ文書解析部102、更新文書取得部103、リンク情報解析部104、リンク先文書取得部105、更新頻度測定部106、キーワード抽出部107、属性更新部108、クエリ文書解析部109、関連文書検索部110および提示部111を含む。
文書データ格納部101は、1以上のスクラップ文書に関する文書データを蓄積する。スクラップ文書は、電子化された文書全体または部分領域を示すユーザによりスクラップされた(切り出された)範囲の文書である。例えば、タッチパネル式の表示画面であればユーザがペンまたは指などで囲む動作で文書中の領域を指定することにより、指定された部分領域がスクラップされ、スクラップ文書を生成できる。また、文書に下線やマーカーを引いたり、先頭行にマークを付すなどのアノテーションを文書に付与することでスクラップし、スクラップ文書を生成してもよい。文書データ格納部101については図3を参照して後述する。
スクラップ文書解析部102は、文書データ格納部101からスクラップ文書を受け取り、スクラップ文書を解析して、スクラップ文書を取得する際の元となる文書である元文書の所在を示す所在情報を得る。所在情報としては、例えばURLやIPアドレスが挙げられる。
更新文書取得部103は、スクラップ文書解析部102から元文書の所在情報を受け取り、所在情報を参照してWEB150を検索し、元文書が、文書データ格納部101に格納されるスクラップ文書を取得した時点から更新されているかどうかを判定する。元文書が更新されている場合は、更新された元文書である更新文書を取得する。
リンク情報解析部104は、スクラップ文書解析部102からスクラップ文書を、更新文書取得部103から更新文書をそれぞれ受け取り、スクラップ文書および更新文書を解析して、スクラップ文書および更新文書に含まれるリンク情報を得る。リンク情報は、文書中に存在するハイパーリンクなどの他の文書へのリンクを示す情報である。
リンク先文書取得部105は、リンク情報解析部104からリンク情報を受け取り、リンク先の文書であるリンク先文書をWEB150から検索して取得する。
更新頻度測定部106は、リンク情報解析部104からスクラップ文書および更新文書を、リンク先文書取得部105からリンク先文書をそれぞれ受け取り、元文書の更新頻度およびリンク先文書の更新頻度を測定する。
キーワード抽出部107は、更新頻度測定部106からスクラップ文書、更新文書およびリンク先文書を受け取る。キーワード抽出部107は、スクラップ文書から1以上のキーワードを抽出し、更新文書およびリンク先文書から、更新頻度に応じたキーワード抽出方式を用いて1以上のキーワードを抽出する。キーワード抽出方式は、キーワードを抽出する場合にどのような基準およびどのようなアルゴリズムで抽出するかを示す。キーワード抽出部107の詳細については、図5を参照して後述する。
属性更新部108は、キーワード抽出部107から1以上のキーワードを受け取り、文書データ格納部101に格納されるスクラップ文書の文書データに対して、更新文書、リンク先文書および1以上のキーワードをそれぞれ対応付けることで更新処理を行う。
クエリ文書解析部109は、検索クエリとなる文書であるクエリ文書を取得し、クエリ文書を解析して単語特徴量を得る。クエリ文書はユーザがスクラップ文書を指定することで決定されてもよいし、ユーザが新たな文書を入力することでクエリ文書が決定されてもよい。
関連文書検索部110は、クエリ文書解析部109からクエリ文書および単語特徴量を受け取り、文書データ格納部101から、クエリ文書の単語特徴量との類似度が閾値以上となるスクラップ文書を検索し、関連文書として取得する。
提示部111は、例えばディスプレイであり、関連文書検索部110からクエリ文書と関連文書と関連文書に対応付けられる更新文書、リンク先文書およびキーワードとを受け取って提示する。
次に、文書データ格納部101に格納されるスクラップ文書の文書データの更新処理について図2のフローチャートを参照して説明する。
なお、本実施形態では、未処理にスクラップ文書が予め文書データ格納部101に格納されている場合を想定するが、スクラップ文書が生成された時点でスクラップ文書をスクラップ文書解析部102が取得し、後段の処理を行うようにしてもよい。
ステップS201では、スクラップ文書解析部102が、文書データ格納部101からスクラップ文書を取得する。
ステップS202では、スクラップ文書解析部102が、スクラップ文書を解析し、元文書の所在情報を得る。
ステップS203では、スクラップ文書解析部102が、元文書が更新されているどうかを判定する。更新の判定は、スクラップ文書解析部102に格納されるスクラップ文書と所在情報が示す場所に存在する元文書との間で差分が存在すれば、元文書が更新されていると判定すればよい。元文書が更新されている場合は、ステップS204に進み、更新されていない場合は、ステップS205に進む。
ステップS204では、更新文書取得部103が、更新文書を取得する。なお、更新の判定の際に元文書が複数回更新されている場合は、複数の更新文書を取得してもよい。
ステップS205では、リンク情報解析部104が、スクラップ文書および更新文書のリンク情報を解析する。
ステップS206では、リンク情報解析部104が、リンク情報を辿った先にリンク先文書が存在するかどうかを判定する。リンク先文書が存在すれば、ステップS207に進み、リンク先文書が存在しなければステップS208に進む。
ステップS207では、リンク先文書取得部105が、リンク先文書を取得する。
ステップS208では、キーワード抽出部107が、スクラップ文書、更新文書およびリンク先文書から、キーワードを抽出する。
ステップS209では、属性更新部108が、文書データ格納部101に格納されるスクラップ文書の文書データを更新する。以上で、スクラップ文書の文書データの更新処理を参照して終了する。
次に、文書データ格納部101に格納される文書データの一例について、図3を参照して説明する。
図3に示す文書データ格納部101に格納されるテーブル300は、文書ID301、スクラップ時刻302、最終更新時刻303、リンク情報304、文書本体305、オリジナルキーワード306および拡張キーワード307を含む。
文書ID301は、文書を識別するための識別子である。スクラップ時刻302は、元文書に対してスクラップ処理を行なった時刻である。最終更新時刻303は、元文書に更新がある場合における元文書の最新の更新日時を示す。元文書に更新がなければスクラップ時刻と同じ値を最終更新時刻303の値としてもよいし、空でもよい。
リンク情報304は、リンク先文書の所在を示すURLなどのアドレスである。
文書本体305は、スクラップ文書、更新文書およびリンク先文書のデータ本体であり、例えば、HTML(Hypertext Markup Language)形式のデータである。なお、スクラップ文書がスクラップした文書の部分領域である場合は、スクラップした時点の文書全体のデータも保持する。
オリジナルキーワード306は、スクラップ文書から抽出されるキーワードである。お、スクラップ文書がスクラップした文書の部分領域である場合は、スクラップした文書全体からキーワードを抽出してもよい。
拡張キーワード307は、更新文書およびリンク先文書から取得したキーワードである。
図3の例では、例えば、文書ID301「001」には、スクラップ時刻302「2014−01−23 13:32:13」、最終更新時刻303「2014−02−22 15:13:40」、リンク情報304「http://www…」、文書本体305「<HTML>…」、オリジナルキーワード306「省エネ、ガス」、拡張キーワード307「省エネサポートフェア、Smart−UPS」がそれぞれ対応付けられる。
次に、関連文書提示処理について図4のフローチャートを参照して説明する。
ステップS401では、クエリ文書解析部109が、クエリ文書を取得する。
ステップS402では、クエリ文書解析部109が、クエリ文書を解析してクエリ文書の単語特徴量を抽出する。
ステップS403では、関連文書検索部110が、クエリ文書を起点として、文書データ格納部101から関連文書を検索する。
ステップS404では、関連文書検索部110が、関連文書が存在するかどうかを判定する。関連文書が存在する場合はステップS405に進み、関連文書が存在しない場合は処理を終了する。
ステップS405では、関連文書検索部110が、関連文書と関連文書に対応付けられる更新文書、リンク先文書およびキーワード(オリジナルキーワードおよび拡張キーワードを含む)とを取得する。
ステップS406では、提示部111が、クエリ文書、関連文書、更新文書、リンク先文書、およびそれぞれに対応付けられるキーワードを提示する。以上で関連文書提示処理を終了する。
次に、キーワード抽出部107のキーワード抽出処理について図5のフローチャートを参照して説明する。
ステップS501では、更新頻度の時間幅を設定する。更新頻度の時間幅は、どのくらいの時間間隔で更新が行われるかを示し、ここでは、3日、5時間などの所定値を想定する。なお、所定値に限らず、ユーザが収集したスクラップ文書群の元文書の更新頻度状況をふまえて、時間幅を動的に設定してもよい。
ステップS502では、更新頻度の時間幅に基づいて、元文書の更新パターンを判定する。更新パターンは、更新の頻度および規則性に応じて、スクラップ文書を分類するためのパターンである。例えば、更新頻度の時間幅を3時間と設定した場合、3時間のうちに4回以上更新があれば、更新頻度が高い文書とし、1回以上3回以下の更新があれば、周期的に更新される文書、一度も更新がない場合は、静的文書としてグループ分けする。なお、更新パターンは固定でなくともよく、更新状況に応じてスクラップ文書を適当なグルーピングを行い、グルーピングされたスクラップ文書群の特徴ごとに動的にクラスタリングしてもよい。
ステップS503では、更新頻度の時間幅に基づいて、リンク先文書の更新パターンを判定する。リンク先文書に対しても、ステップS502と同様の方法で更新パターンを判定すればよい。
ステップS504では、判定された更新パターンに応じてキーワード抽出方式の重み付けを行う。ここで、重み付けとは、同一のキーワード抽出方式に対して重み付けのパラメータを変更することに加えて、キーワードの抽出アルゴリズム自体の変更も含む。重み付けとしては、例えば、更新文書のレイアウトおよびリンク先文書のレイアウトに関する論理要素およびフィールドのうちのどの領域からキーワードを抽出するかを決定すればよい。
ステップS505では、キーワード抽出方式に基づいてキーワードを抽出する。以上でキーワード抽出処理を終了する。
次に、更新パターンとキーワード抽出方式との関係性の一例について図6を参照して説明する。
図6に示すテーブル600は、更新パターンとして、高頻度更新601、周期的更新602および無更新603を含み、それぞれに対してカテゴリ604ごとにキーワード抽出方式の重み付けが設定される。
カテゴリ604は、アルゴリズム、文書中の属性およびパラメータを含むが、これに限らず他の要素を含んでもよい。
例えば、アルゴリズムについては、周期的更新602では未知語抽出方式を適用し、無更新603では固有表現抽出方式を適用し、高頻度更新601にように、更新頻度が高いページであれば、新しく出現したキーワードのみを積極的に取得するため新語抽出方式を適用すればよい。
文書中の属性については、周期的更新602では「value」属性が付与されるキーワードの重み付けを1.5倍にする。無更新603では、文書が更新されないのでタイトルが重要となる可能性が高いため「title」属性が付与されるキーワードの重み付けを1.5倍にする。高頻度更新601では、例えば価格などが頻繁に更新されることが想定されるため、「price」属性が付与されるキーワードの重み付けを1.2倍にする。
また、アルゴリズムのうち、単語に対する重み付けである「W」と、文書中における単語の出現位置である「L」が可変である場合に、それぞれに異なる重み付けを行う。
次に、関連文書検索部110の関連文書判定処理について図7を参照して説明する。
ステップS701では、クエリ文書を構文解析して、論理要素を抽出する。具体的には、どのような要素および属性に、どのような文字列およびフレーズが含まれるかを検出する。
ステップS702では、クエリ文書を形態素解析し、キーワードを抽出する。キーワードは、形態素解析した結果、名詞および名詞の連接範囲、未知語と名詞との組み合わせ(連接)等で構成される文字列でもよいし、これらが出現する統計情報を元に、C−Value等を用いて適切な連接範囲を検出してもよい。
ステップS703では、キーワードである出現単語およびフレーズに対して、文書データ格納部101に格納されるスクラップ文書のTF/IDF(Term Frequency - Inverse Document Frequency)値を算出するとともに、文書の論理要素(出現位置)に応じて重み付けを変更した文書ベクトルを生成する。
ステップS704では、クエリ文書の文書ベクトルと、文書データ格納部101に格納されるスクラップ文書の文書ベクトルとのコサイン距離を計算する。
ステップS705では、コサイン距離が閾値以下、すなわち類似度が閾値以上であるスクラップ文書をクエリ文書と類似する関連文書であると判定し、類似度が高い文書ベクトルを有するスクラップ文書から順に関連文書として得る。以上で関連文書検索処理を終了する。
次に、提示部111における関連文書およびキーワードの提示の一例について図8を参照して説明する。
図8の例では、クエリ文書801を提示するとともに、関連文書802を提示する。関連文書802には、スクラップ文書のほか、更新文書、リンク先文書を奥行き方向に1列に並べた状態で提示する。また、関連文書802は、高頻度更新803、周期的更新804、無更新805のカテゴリごとに表示し、それぞれのカテゴリにおいて検出されたキーワード806も合わせて提示する。
なお、キーワード806において、スクラップ文書から取得したオリジナルキーワード、更新文書から取得したキーワード、およびリンク先文書から取得した拡張キーワードをそれぞれフォントおよび色を区別して提示してもよい。
以上に示した本実施形態によれば、スクラップ文書だけではなく、スクラップ文書に関する更新文書、リンク先文書を取得し、これらの文書のキーワードを、更新頻度に応じたキーワード抽出方式で取得することで、ユーザの意図および興味に沿ったキーワードを提示できる。また、更新文書およびリンク先文書からもキーワードを取得することで、類似度による一次元の観点に加えて異なる複数の観点からキーワードを取得でき、ユーザが閲覧していない文書からも関連のあるキーワードを提示して、ユーザの興味の幅、探索の幅を広げることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した検索支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の検索支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・検索支援装置、101・・・文書データ格納部、102・・・スクラップ文書解析部、103・・・更新文書取得部、104・・・リンク情報解析部、105・・・リンク先文書取得部、106・・・更新頻度測定部、107・・・キーワード抽出部、108・・・属性更新部、109・・・クエリ文書解析部、110・・・関連文書検索部、111・・・提示部、300,600・・・テーブル、301・・・文書ID、302・・・スクラップ時刻、303・・・最終更新時刻、304・・・リンク情報、305・・・文書本体、306・・・オリジナルキーワード、307・・・拡張キーワード、601,803・・・高頻度更新、602,804・・・周期的更新、603,805・・・無更新、604・・・カテゴリ、801・・・クエリ文書、802・・・関連文書。

Claims (8)

  1. スクラップされた文書であるスクラップ文書を解析し、該スクラップ文書の元となる元文書の所在を示す所在情報を得る第1解析部と、
    前記所在情報を参照し、前記元文書が更新されている場合、更新された前記元文書である更新文書を取得する第1取得部と、
    前記元文書の第1更新頻度を測定する測定部と、
    前記スクラップ文書から1以上の第1キーワードを抽出し、前記更新文書から前記第1更新頻度に応じて設定されるキーワード抽出方式を用いて1以上の第2キーワードを抽出する抽出部と、
    前記スクラップ文書に対し、前記1以上の第1キーワード、前記更新文書、前記1以上の第2キーワードをそれぞれ対応付けて格納する格納部と、を具備することを特徴とする検索支援装置。
  2. 検索クエリとなる文書であるクエリ文書の単語特徴量を抽出する第2解析部と、
    前記単語特徴量との類似度が閾値以上となるスクラップ文書である関連文書を前記格納部から検索する検索部と、
    前記クエリ文書と、前記関連文書と、該関連文書に対応付けられる更新文書および前記1以上の第2キーワードの少なくともどちらか1つとを提示する提示部と、をさらに具備することを特徴とする請求項1に記載の検索支援装置。
  3. 前記スクラップ文書および前記更新文書を解析し、他の文書へのリンクを示すリンク情報を得る第3解析部と、
    前記リンク情報を参照してリンク先の文書であるリンク先文書を取得する第2取得部と、をさらに具備し、
    前記測定部は、前記リンク先文書の第2更新頻度を測定し、
    前記抽出部は、前記リンク先文書から、前記第2更新頻度に応じたキーワード抽出方式を用いて1以上の第3キーワードを抽出し、
    前記格納部は、前記スクラップ文書に対し、前記リンク先文書および前記1以上の第3キーワードをさらに対応付けて格納することを特徴とする請求項1に記載の検索支援装置。
  4. 検索クエリとなる文書であるクエリ文書の単語特徴量を抽出する第2解析部と、
    前記単語特徴量との類似度が閾値以上となるスクラップ文書である関連文書を前記格納部から検索する検索部と、
    前記クエリ文書と、前記関連文書と、該関連文書に対応付けられる更新文書、リンク先文書、前記1以上の第2キーワードおよび前記1以上の第3キーワードの少なくともいずれか1つとを提示する提示部と、をさらに具備することを特徴とする請求項3に記載の検索支援装置。
  5. 前記抽出部は、前記第1更新頻度に応じて設定される前記更新文書のレイアウトに関する論理要素およびフィールドの領域から、前記1以上の第2キーワードを抽出することを特徴とする請求項1から請求項4のいずれか1項に記載の検索支援装置。
  6. 前記抽出部は、前記第2更新頻度に応じて設定される前記リンク先文書のレイアウトに関する論理要素およびフィールドの領域から、前記1以上の第3キーワードを抽出することを特徴とする請求項3から請求項5のいずれか1項に記載の検索支援装置。
  7. スクラップされた文書であるスクラップ文書を解析し、該スクラップ文書の元となる元文書の所在を示す所在情報を得、
    前記所在情報を参照し、前記元文書が更新されている場合、更新された前記元文書である更新文書を取得し、
    前記元文書の第1更新頻度を測定し、
    前記スクラップ文書から1以上の第1キーワードを抽出し、前記更新文書から前記第1更新頻度に応じて設定されるキーワード抽出方式を用いて1以上の第2キーワードを抽出し、
    前記スクラップ文書に対し、前記1以上の第1キーワード、前記更新文書、前記1以上の第2キーワードをそれぞれ対応付けて格納部に格納し、
    検索クエリとなる文書であるクエリ文書の単語特徴量を抽出し、
    前記単語特徴量との類似度が閾値以上となるスクラップ文書である関連文書を前記格納部から検索し、
    前記クエリ文書と、前記関連文書と、該関連文書に対応付けられる第2キーワードとを提示することを特徴とする検索支援方法。
  8. コンピュータを、
    スクラップされた文書であるスクラップ文書を解析し、該スクラップ文書の元となる元文書の所在を示す所在情報を得る第1解析手段と、
    前記所在情報を参照し、前記元文書が更新されている場合、更新された前記元文書である更新文書を取得する第1取得手段と、
    前記元文書の第1更新頻度を測定する測定手段と、
    前記スクラップ文書から1以上の第1キーワードを抽出し、前記更新文書から前記第1更新頻度に応じて設定されるキーワード抽出方式を用いて1以上の第2キーワードを抽出する抽出手段と、
    前記スクラップ文書に対し、前記1以上の第1キーワード、前記更新文書、前記1以上の第2キーワードをそれぞれ対応付けて格納する格納手段と、して機能させるための検索支援プログラム。
JP2014188230A 2014-09-16 2014-09-16 検索支援装置、方法およびプログラム Expired - Fee Related JP6173990B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014188230A JP6173990B2 (ja) 2014-09-16 2014-09-16 検索支援装置、方法およびプログラム
US14/847,961 US10606875B2 (en) 2014-09-16 2015-09-08 Search support apparatus and method
CN201510572370.7A CN105426383A (zh) 2014-09-16 2015-09-10 检索辅助装置、方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014188230A JP6173990B2 (ja) 2014-09-16 2014-09-16 検索支援装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016062195A JP2016062195A (ja) 2016-04-25
JP6173990B2 true JP6173990B2 (ja) 2017-08-02

Family

ID=55454917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014188230A Expired - Fee Related JP6173990B2 (ja) 2014-09-16 2014-09-16 検索支援装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US10606875B2 (ja)
JP (1) JP6173990B2 (ja)
CN (1) CN105426383A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7401936B1 (ja) 2022-07-15 2023-12-20 株式会社トヨックス 管継手

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037155B2 (en) * 2016-07-29 2018-07-31 Microsoft Technology Licensing, Llc Preventing write amplification during frequent data updates

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
WO1999014690A1 (fr) * 1997-09-17 1999-03-25 Hitachi, Ltd. Procede d'addition d'un mot cle au moyen d'informations de liaison
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
EP1182577A1 (en) * 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
JP4088950B2 (ja) * 2001-12-13 2008-05-21 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP3937944B2 (ja) * 2002-06-28 2007-06-27 日本電信電話株式会社 構造化文書からの情報抽出方法及び装置及び情報抽出プログラム及びコンピュータ読み取り可能な記録媒体
AU2003282342A1 (en) 2002-11-13 2004-06-03 Kenneth, Nadav Method and system for using query information to enhance categorization and navigation within the whole knowledge base
US7702618B1 (en) * 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
JP4081056B2 (ja) 2004-08-30 2008-04-23 株式会社東芝 情報処理装置、情報処理方法及びプログラム
JP4820147B2 (ja) 2004-11-12 2011-11-24 ヤフー株式会社 属性評価プログラム、属性評価システムおよび属性評価方法
US7433869B2 (en) 2005-07-01 2008-10-07 Ebrary, Inc. Method and apparatus for document clustering and document sketching
JP4997743B2 (ja) * 2005-11-10 2012-08-08 日本電気株式会社 文書検索装置、文書検索プログラムおよび文書検索方法
US8429184B2 (en) 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
JP5092252B2 (ja) * 2006-02-27 2012-12-05 大日本印刷株式会社 トレンド解析サーバおよびトレンド解析方法
US8442972B2 (en) 2006-10-11 2013-05-14 Collarity, Inc. Negative associations for search results ranking and refinement
US8209605B2 (en) 2006-12-13 2012-06-26 Pado Metaware Ab Method and system for facilitating the examination of documents
US20080221987A1 (en) * 2007-03-07 2008-09-11 Ebay Inc. System and method for contextual advertisement and merchandizing based on an automatically generated user demographic profile
US8676815B2 (en) 2008-05-07 2014-03-18 City University Of Hong Kong Suffix tree similarity measure for document clustering
US8214346B2 (en) 2008-06-27 2012-07-03 Cbs Interactive Inc. Personalization engine for classifying unstructured documents
JP2010176387A (ja) * 2009-01-29 2010-08-12 Nec Corp 電子スクラップシステム、電子スクラップ方法、電子スクラップサーバ、および利用者端末
JP5345963B2 (ja) 2010-02-16 2013-11-20 レノボ・シンガポール・プライベート・リミテッド 画像イメージを検索するタグデータの生成方法
JP5085708B2 (ja) 2010-09-28 2012-11-28 株式会社東芝 キーワード提示装置、方法及びプログラム
JP2013016106A (ja) 2011-07-06 2013-01-24 Kyocera Communication Systems Co Ltd 要約文生成装置
JP5757208B2 (ja) 2011-09-22 2015-07-29 日本電気株式会社 キーワード抽出システム、キーワード抽出方法及びプログラム
US8977620B1 (en) 2011-12-27 2015-03-10 Google Inc. Method and system for document classification
US9002848B1 (en) 2011-12-27 2015-04-07 Google Inc. Automatic incremental labeling of document clusters
US10327032B2 (en) * 2012-03-29 2019-06-18 Sony Interactive Entertainment LLC Extracting media content from social networking services
US11157570B2 (en) * 2012-05-24 2021-10-26 Evernote Corporation Related notes and multi-layer search in personal and shared content
JP2015060581A (ja) 2013-09-20 2015-03-30 株式会社東芝 キーワード抽出装置、方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7401936B1 (ja) 2022-07-15 2023-12-20 株式会社トヨックス 管継手

Also Published As

Publication number Publication date
US20160078025A1 (en) 2016-03-17
CN105426383A (zh) 2016-03-23
JP2016062195A (ja) 2016-04-25
US10606875B2 (en) 2020-03-31

Similar Documents

Publication Publication Date Title
US9020950B2 (en) System and method for generating, updating, and using meaningful tags
US20080021891A1 (en) Searching a document using relevance feedback
JP5159772B2 (ja) 文書検索装置及び文書検索方法
JP5820320B2 (ja) 情報処理端末及び方法、並びに、情報管理装置及び方法
JP2008210024A (ja) 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
JP2008090403A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5185402B2 (ja) 文書検索装置、文書検索方法、及び文書検索プログラム
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
CN110019669A (zh) 一种文本检索方法及装置
JP6173990B2 (ja) 検索支援装置、方法およびプログラム
JPWO2008142791A1 (ja) 差分算出プログラム、差分算出装置および差分算出方法
US20110252313A1 (en) Document information selection method and computer program product
JP2010224984A (ja) 特許明細書評価・作成作業支援装置、方法及びプログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2010224625A (ja) キーワード二次元可視化方法およびキーワード二次元可視化プログラム
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
Wanjari et al. Automatic news extraction system for Indian online news papers
JP4569179B2 (ja) ドキュメント検索装置
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP2009265770A (ja) 重要文提示システム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
CN109213830B (zh) 专业性技术文档的文档检索系统
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170705

R151 Written notification of patent or utility model registration

Ref document number: 6173990

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees