JP5944368B2

JP5944368B2 - 情報更新装置、情報更新方法、プログラム

Info

Publication number: JP5944368B2
Application number: JP2013242048A
Authority: JP
Inventors: 富士本　淳; 淳富士本; 野中　誠之; 誠之野中; 勝倉　裕; 裕勝倉
Original assignee: Universal Entertainment Corp
Current assignee: Universal Entertainment Corp
Priority date: 2013-11-22
Filing date: 2013-11-22
Publication date: 2016-07-05
Anticipated expiration: 2033-11-22
Also published as: JP2015102959A

Description

本発明は、テキストデータに含まれる文字列を対応する辞書に記憶し、生成された複数の辞書を比較する情報更新装置に関する。

従来より、個人によって生成されたテキストデータから、意味識別可能な複数の分解テキストデータを抽出し、さらに、複数の条件を用いてフィルタリングを行うことによって検閲の場（広義フィルタリングのための空間）を提供するとともに特異性を見い出して可視化するシステムが提案されている。

例えば、特許文献１には、個人によって生成された個人生成データを、意味識別可能な複数の分解テキストデータに分解し、これらの分解テキストデータが示す対象について、所定の関連条件と所定の特徴条件を満たすデータを抽出して、当該抽出されたデータの集まりを検閲の場として生成し、さらに、当該抽出されたデータの集まりから、分解テキストデータが示す対象について、所定の特異条件を満たすデータを抽出し、こうして抽出されたデータから、所定の特異性を検出して可視化する情報処理システムが開示されている。

ここで、検閲の場とは、検閲の対象となるテキストデータの集まりから構成される空間である。また、関連条件は、分解テキストデータが示す対象（テキストデータに含まれている話題や内容など）について、情報処理システムの運用者等が設定する条件であり、例えば、分解テキストデータが示す対象が食品のラーメンである場合に、関連条件を満たす関連対象として、醤油味のラーメンや塩味のラーメンを含めることができる。

特徴条件は、分解テキストデータが示す対象の属性（特性や特色などの特徴）に関する条件である。属性は、嗜好と捉えることもでき、例えば、分解テキストデータが示す対象が食品である場合に、おいしいや、まずいといった、個人による主観的または客観的記述が考えられる。

特異条件は、テキストデータが示す対象に関して所定の特異性を示すことである。特異性は、所定の対象に関する各種の量、度合い、変化率が所定の閾値より大きいか小さいかによって判断できる。例えば、ある部分空間において、「ラーメン」という語（発話）の出現回数が残りの部分空間よりも多い場合に、所定の特異条件を満たすとして、その分解テキストデータが抽出され可視化される。

特開２０１２−２２１２２２号公報

しかしながら、上述した、特許文献１に開示されている情報処理システムでは、個人によって生成されたテキストデータから、意味識別可能な複数の分解テキストデータを抽出し、さらに、所定の条件を満たす分解テキストデータを絞り込んで可視化するが、検閲の対象とするテキストデータは、ネットワーク上で世界中から絶え間なく更新され続けている膨大なテキストデータを含むものであり、最新の情報を扱うためには、分解テキストデータの抽出を、その膨大なテキストデータの更新に合わせて逐次行っていかなければならず、その作業量は膨大である。

また、新たに出現した分解テキストデータは、新規情報として価値が大きいが、膨大なテキストデータから新たに出現した分解テキストデータを切り分けることは極めて困難である。特に、膨大なテキストデータにおいて、このような新たに出現した分解テキストデータを抽出することは、話題を把握する上で重要であるが、テキストデータが膨大であるがゆえに、そのような分解テキストデータを的確にとらえることが難しい。

従って、本発明の目的は、上述した課題を解決することができる情報更新装置、情報更新方法、及びプログラムを提供することである。

本発明は、以下のような情報更新装置を提供する。

本発明の第１の実施態様は、
テキストデータ（例えば、収集されたＷＥＢページから取得されるテキストデータ１２００）から、意味識別可能な文字列（例えば、関連詞）を抽出し、抽出された文字列を、前記テキストデータに対応する辞書（例えば、関連詞辞書１１１５）に記憶する文字列抽出手段（例えば、図２４に示す文字列抽出処理部１４２２）と、
複数の前記辞書を比較する比較処理（例えば、関連詞辞書（ｉ−１）に記憶された関連詞と関連詞辞書（ｉ）に記憶された関連詞を比較し、関連詞辞書（ｉ）で新たに出現した新着関連詞があるか否かや関連詞辞書（ｉ）で消滅した消滅関連詞があるか否かなどを判定する処理）を行い、比較結果（例えば、新着関連詞等）を比較結果記憶手段（比較結果データ１１２５）に記憶する辞書比較手段（例えば、図２４に示す辞書比較処理部１４２３）とを備え、
異なる前記辞書に対応付けられたテキストデータ（例えば、関連詞辞書（ｉ−１）に記憶された関連詞の抽出元であるテキストデータ１と、関連詞辞書（ｉ）に記憶された関連詞の抽出元であるテキストデータ２）は、異なる収集条件（例えば、同じ検索条件によって検索された、異なる時間におけるテキストデータ、または、同じ時間において、異なる検索条件によって検索されたテキストデータ）によって収集されたテキストデータであり、
前記辞書比較手段は、複数の前記辞書のうち少なくとも１つが更新された場合に、前記比較処理を行い、前記比較結果記憶手段に記憶された比較結果を自動的に更新（例えば、上書き更新、または累積的に更新）し、
前記文字列抽出手段は、前記テキストデータから複数の前記文字列を抽出した場合に、当該複数の前記文字列を関連付けて、対応する前記辞書に記憶し（例えば、１つのテキストデータから抽出された複数の関連詞（共起関連詞）を、ランク付けして１レコードとして記憶する）、
前記辞書比較手段が、
前記比較処理において、複数の前記辞書で共通する文字列がある場合に、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較する（例えば、関連詞の集合同士で共通性を判断する、すなわち、それぞれの共通関連詞の共起関連詞を比較する）ように構成された情報更新装置（例えば、図２４に示す情報更新装置１４００）である。

こうした本発明の実施態様によって、例えば、テキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を前記テキストデータに対応する辞書に記憶（異なる辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータである）し、辞書比較手段が複数の前記辞書を比較して、比較結果を自動的に比較結果記憶手段に記憶するので、異なる収集条件により収集されたテキストデータから、逐次、意味識別可能な文字列を自動的に抽出することができ、それらの文字列を記憶した辞書を比較することにより、最新の文字列等を把握することができるとともに、話題の変化を効果的に把握することがきる。また、このように構成することによって、前記文字列抽出手段が、例えば、複数の文字列を関連付けて辞書に記憶することができ、前記辞書比較手段が、前記比較処理において、複数の辞書で共通する文字列（共通関連詞）に関し、それぞれに関連付けられた文字列（近傍関連詞）についても比較を行うので、共通の文字列に関する共通性のレベル等についても把握することができる。

本発明の第２の実施態様は、第１の実施態様において、
前記辞書比較手段は、
前記比較処理において、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較する場合に、前記関連付けられた他の文字列の共通性を判定し、当該共通性に関する情報を前記比較結果記憶手段に記憶するように構成される。

本発明の第３の実施態様は、第２の実施態様において、
前記文字列抽出手段は、
前記テキストデータから複数の文字列が抽出された場合に、所定の基準に従って各文字列をランク付けし、
前記辞書比較手段は、
前記比較処理において、前記関連付けられた他の文字列の共通性を、前記各文字列のランク付けに基づいて判定するように構成される。

本発明の第４の実施態様は、
テキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を、前記テキストデータに対応する辞書に記憶する文字列抽出ステップと、
複数の前記辞書を比較する比較処理を行い、比較結果を比較結果記憶手段に記憶する辞書比較ステップとを備え、
異なる前記辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータであり、
前記辞書比較ステップは、複数の前記辞書のうち少なくとも１つが更新された場合に、前記比較処理を行い、前記比較結果記憶手段に記憶された比較結果を自動的に更新し、
前記文字列抽出ステップは、前記テキストデータから複数の前記文字列を抽出した場合に、当該複数の前記文字列を関連付けて、対応する前記辞書に記憶し、
前記辞書比較ステップは、
前記比較処理において、複数の前記辞書で共通する文字列がある場合に、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較するように構成された情報更新方法である。
このように構成すれば、上記本発明の第１の実施態様と同様の作用効果を奏する情報更新方法を提供できる。

本発明の第５の実施態様は、
コンピュータに、
テキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を、前記テキストデータに対応する辞書に記憶する文字列抽出手段、及び、
複数の前記辞書を比較する比較処理を行い、比較結果を比較結果記憶手段に記憶する辞書比較手段として機能させるプログラムであって、
異なる前記辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータであり、
さらに、前記辞書比較手段は、複数の前記辞書のうち少なくとも１つが更新された場合に、前記比較処理を行い、前記比較結果記憶手段に記憶された比較結果を自動的に更新し、
前記文字列抽出手段は、前記テキストデータから複数の前記文字列を抽出した場合に、当該複数の前記文字列を関連付けて、対応する前記辞書に記憶し、
前記辞書比較手段は、
前記比較処理において、複数の前記辞書で共通する文字列がある場合に、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較するように構成される。
このように構成すれば、上記本発明の第１の実施態様と同様の作用効果を奏するコンピュータで実行可能なプログラムを提供できる。

本発明に係る情報更新装置によって、異なる収集条件により収集されたテキストデータから、逐次分解テキストデータを自動的に抽出することができ、その結果、膨大なテキストデータから、最新の分解テキストデータ等を把握することができる。テキストデータには、ネットワーク上において個人によって頻繁に作成・更新されるデータだけでなく、所定の機関等において日々、作成・更新されるデータ等も含まれうる。また、分解テキストデータの抽出が自動的に行われることにより、当該分解テキストデータの定義や作成に関する労力を大きく軽減することができる。

また、本発明に係る情報更新装置によって、異なる収集条件により収集されたテキストデータから、逐次分解テキストデータを自動的に抽出するとともに、こうして抽出された分解テキストデータを比較して、新たに出現した分解テキストデータを切り分けることができ、話題の把握等に関して価値の高い新規情報を瞬時に得ることができ、話題の変化を効果的に把握することがきる。また、消滅した分解テキストデータや再度出現した分解テキストデータなどを把握することもでき、これらの情報を必要とする多様なシステムに適用することができる。

さらに、本発明に係る情報更新装置によって、テキストデータから分解テキストデータを抽出する際に、そのテキストデータから抽出された複数の分解テキストデータを意味のある集合としてとらえ、分解テキストデータの出現状況と分解テキストデータの上記集合（共起関係）を関連付けることによって、話題の変化をより効果的に把握することができる。

本発明の一実施形態に係る文解析装置の処理概要を示す図である。テキストデータの原データとなりうるＨＴＭＬデータに基づいて表示されたＷＥＢページを示す正面図である。本発明の一実施形態に係る文字列検索処理の処理手順を表すフローチャートである。サフィックスアレイと二分探索を用いた文字列検索の仕組みを示す図である。サフィックスアレイと二分探索を用いた文字列検索の仕組みを示す図である。本発明の一実施形態に係る異なり度合い判定処理の処理手順を表すフローチャートである。前後の隣接文字の異なり度合いを判定するための仕組みを示す図である。本発明の一実施形態に係るランク付け処理の概念を示す図である。本発明の一実施形態に係る文解析装置の適用例を示す図である。本発明の一実施形態に係る文解析装置の各機能部を示す機能ブロック図である。本発明の一実施形態に係る文解析装置を構成するコンピュータのハードウェア構成の例を示す図である。本発明の一実施形態に係る情報更新装置の処理概要を示す図である。本発明の一実施形態に係る情報更新装置の文字列抽出処理の処理手順を表すフローチャートである。本発明の一実施形態に係る情報更新装置の辞書比較処理の処理手順を表すフローチャートである。本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を示す図である。本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を示す図である。本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を示す図である。本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。本発明の一実施形態に係る情報更新装置の辞書比較処理により記憶される比較結果データの内容を示す図である。本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理を関連詞辞書の内容とともに示す図である。本発明の一実施形態に係る情報更新装置を含む情報更新システムの概要を示す図である。本発明の一実施形態に係る情報更新装置の各機能部を示す機能ブロック図である。本発明の一実施形態に係る情報更新装置を構成するコンピュータのハードウェア構成の例を示す図である。

＜＜＜本発明の文解析装置における技術的思想の概要＞＞＞
本発明の文解析装置は、テキストデータから同じ文字列を検索し、当該検索された同じ文字列についてそれぞれ、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いを判定し、その判定された異なり度合いに基づいて、その検索された「同じ文字列」が、話題に関して重要性が高く、テキストデータを意味識別可能な特定文字列であるか否かを決定する。前の隣接文字の異なり度合いとは、検索された「同じ文字列」の直前に出現する文字が、どの程度異なっているかを示す指標である。同様に、後の隣接文字の異なり度合いとは、検索された「同じ文字列」の直後に出現する文字が、どの程度異なっているかを示す指標である。

ここで、例えば、検索された「同じ文字列」のうち、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いが大きい文字列が、特定文字列として決定される。このようにして決定された１つまたは複数の文字列は、必要に応じて、所定の記憶手段に記憶される。

このような文字列の抽出は、テキストデータに含まれる複数の同じ文字列に注目したときに、それぞれの文字列の直前に位置する文字として多くのバリエーションの文字が出現するとともに、それぞれの文字列の直後に位置する文字として多くのバリエーションの文字が出現するという出現特性が認められる場合、その文字列が、独立した、よく用いられる用語である、との考えに基づくものである。このように、本発明の文解析装置では、文字列の運動学（kinematics）を基礎におく考えに基づいて文字列が抽出される。

ここで、「いろは」という文字列が１００回出現する日本語テキストデータを仮定すると、この文字列「いろは」を１００個検索し、それぞれの文字列「いろは」について、直前の文字が何かを調べる。その結果、「あ」や「い」を含む３０通りの文字が出現するという事実が得られるものとする。このことは、例えば、「・・・あいろは・・・」や「・・・いいろは・・・」といった表現が、上記の日本語テキストデータに存在するということを示している。一方、それぞれの文字列「いろは」について、直後の文字が何かを調べる。その結果、「わ」や「ん」を含む２０通りの文字が出現するという事実が得られるものとする。このことは、例えば、「・・・いろはわ・・・」や「・・・いろはん・・・」といった表現が、上記の日本語テキストデータに存在するということを示している。

この場合、前の隣接文字の異なり度合いは、例えば、「あ」や「い」を含む３０通りというバリエーションの数に基づいて判定され、後の隣接文字の異なり度合いは、例えば、「わ」や「ん」を含む２０通りというバリエーションの数に基づいて判定される。ここで、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いが大きいと判定された場合は、「いろは」という文字列の前後の文字が大きな多様性をもって変化しており、これによって文字列「いろは」が、独立した用語であって重要性の高い語である可能性が高いと判断され、特定文字列として決定され、必要に応じて記憶手段に記憶される。前の隣接文字の異なり度合いと後の隣接文字の異なり度合いが大きいか否かは、共通の、または個別の判断基準により判断される。

入力データであるテキストデータは、どのような内容のデータであってもよい。代表的な例としては、個人によって生成された、インターネット上に公開されているＷＥＢページ（ホームページ）やブログのテキストデータ、及びTWITTER（登録商標）のツイート情報がある。また、個人のほか、任意の機関によって事前に生成・編集されたデータやデータベース内のテキスト情報であってもよい。さらに、音声ファイル・動画ファイルから音声認識処理を経て取得されるテキストデータ等、様々なデータを用いることができる。

また、テキストデータは、収集条件によって収集されたデータである。例えば、キーワード検索の検索結果として示されたＷＥＢページ（ホームページ）に記載されているテキストデータや、ある属性を有するユーザのブログに記載された文や、TWITTERにおけるツイート情報などであってもよい。なお、１つのテキストデータは、複数のテキストファイルを含むもの（例えば、１つのＷＥＢサイトに含まれる複数のＷＥＢページ（ＨＴＭＬファイル）を含むもの）であってもよいし、１つのテキストファイルを分割した一部（例えば、１ファイルに含まれるテキストを１万ラインごとに分割したうちの１つ）であってもよい。

＜＜＜本発明の一実施形態に係る文解析装置の処理概要の説明＞＞＞
図１を参照して、本発明の一実施形態に係る文解析装置の処理概要について説明する。最初に、文解析装置は、テキストデータ２００を取得する（テキストデータ取得処理１００）。テキストデータ２００は、前述のように、様々なデータソースから受信することができる。また、受信したネットワークアドレスにアクセスすることによりテキストデータ２００を取得するようにもできる。またさらに、取得したテキストデータ２００、またはテキストデータ２００を取得する際に、特定のテキストデータだけを取得するようフィルタ処理を行ったり、特定の分類によりグルーピングをしたりすることもできる。

次に、文解析装置は、テキストデータ取得処理１００により取得されたテキストデータ２００から、同じ（共通の）文字列を検索する（文字列検索処理１１０）。この処理は、例えば、上述したように、取得したテキストデータ２００の中の「いろは」という同じ文字列を検索し、取り出す処理である。上記の例では、１つのテキストデータに１００個の文字列「いろは」が存在するが、そのすべてが取り出される。また、テキストデータの中には、「いろは」以外にも同じ文字列が複数存在する可能性があるが、その場合は、それらの文字列も同様に検索して取り出す。例えば、文字列「いろは」の他に、文字列「にほへと」が複数含まれていれば、その文字列も同様に取り出される。なお、文字列「いろはに」などのように、同じ文字列としてすでに取り出されている「いろは」をそのまま含む文字列が複数ある場合も、文字列「いろは」とは別に、同じ文字列として検索される。

文字列検索処理１１０はさらに、同じ文字列として検索された文字列を、それぞれ、その文字列の前の隣接文字と後の隣接文字とともに、検索結果データ１１５に記憶する。検索結果データ１１５は、例えば、ＲＡＭ等の主記憶装置に記憶される。記憶されるデータは、例えば、上記の例の文字列「いろは」については、１００個のそれぞれの「いろは」について、文字列「いろは」、「いろは」の前の隣接文字、及び「いろは」の後の隣接文字を含むデータである。上述した例の場合、文字列「にほへと」や文字列「いろはに」についても同様に、それらの文字列と、前の隣接文字、及び後の隣接文字が検索結果データ１１５に記憶される。

このように、文字列検索処理１１０において、同じ文字列が検索された場合に、その文字列と、前後の隣接文字を記憶するのは、最終的に、重要な意味を持つ特定文字列を決定するためであるが、テキストデータ２００のなかに同じ文字列が複数存在する場合であっても、その出現頻度が所定の頻度に達しない場合は、この時点で、特定文字列として決定される可能性がないとの判断を行い、その文字列に関するデータを検索結果データ１１５に記憶しないようにすることができる。多くの文字からなるテキストデータ２００において、わずかな回数しか出現しない語（文字列）は、そもそも重要性が高くないと判断できるからである。

また、文字列検索処理１１０において、テキストデータ２００から同じ文字列を検索し記憶するために、本実施形態では、サフィックスアレイ（Suffix Array：接尾辞配列）という検索用データ構造を用い、これを二分探索（Binary Search）により検索することで、同じ文字列を高速に検索している。なお、本実施形態では、上記のような方法により、文字列検索処理１１０を行っているが、他の様々な方法を採用して、同様の検索処理を行うことができる。サフィックスアレイと二分探索を用いた文字列検索処理１１０の処理については、後で詳細に説明する。

次に、文解析装置は、文字列検索処理１１０によって検索結果データ１１５に記憶された文字列とその前後の隣接文字の内容から、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いを判定する（異なり度合い判定処理１２０）。

ここで、１つの文字をｓ（ｉ）と表し、
ｓ（ｉ）〜ｓ（ｊ）より構成される文字列ｍ（ｉ，ｊ）を、
ｍ（ｉ，ｊ）＝（ｓ（ｉ），ｓ（ｉ＋１），ｓ（ｉ＋２），・・・ｓ（ｊ−２），ｓ（ｊ−１），ｓ（ｊ））と表し、
ｓ（ｉ）〜ｓ（ｊ−１）より構成される文字列ｍ（ｉ，ｊ−１）を、
ｍ（ｉ，ｊ−１）＝（ｓ（ｉ），ｓ（ｉ＋１），ｓ（ｉ＋２），・・・ｓ（ｊ−２），ｓ（ｊ−１））と表し、
ｓ（ｉ＋１）〜ｓ（ｊ）より構成される文字列ｍ（ｉ＋１，ｊ）を、
ｍ（ｉ＋１，ｊ）＝（ｓ（ｉ＋１），ｓ（ｉ＋２），・・・ｓ（ｊ−２），ｓ（ｊ−１），ｓ（ｊ））と表す。

この場合、前の隣接文字に関する境界条件は、
Ｔ（ｉ−１）＝｛Ｓ（ｉ−１）｜ｍ（ｉ，ｊ）｝
Ｔ（ｉ）＝｛Ｓ（ｉ）｜ｍ（ｉ＋１，ｊ）｝
で定義され、
後の隣接文字に関する境界条件は、
Ｂ（ｊ）＝｛Ｓ（ｊ）｜ｍ（ｉ，ｊ−１）｝
Ｂ（ｊ＋１）＝｛Ｓ（ｊ＋１）｜ｍ（ｉ，ｊ）｝
で定義される。

ここで、例えば、｛Ｓ（ｉ−１）｜ｍ（ｉ，ｊ）｝は、文字列ｍ（ｉ，ｊ）を共通とし、その直前に出現する文字の集合を意味する。なお、ここで、ｓ（ｉ）∈Ｔ（ｉ）、及びｓ（ｊ）∈Ｂ（ｊ）が成立する。

例えば、Ｔ（ｉ−１）の要素数が多く、Ｔ（ｉ）の要素数が１の場合、ｓ（ｉ）が特定文字列の先頭になる可能性が高く、一方、Ｂ（ｊ）の要素数が１で、Ｂ（ｊ＋１）の要素数が多い場合、ｓ（ｊ）が特定文字列の末尾になる可能性が高く、結果的に、文字列ｍ（ｉ，ｊ）は、特定文字列の候補として判断される。

このように、同じ文字列について、それらの前（または後）の隣接文字の出現態様、すなわち、隣接文字がどれくらいのバリエーションで出現するかに基づいて、同じ文字列についての隣接文字に関する異なり度合いを判定する。前後の隣接文字に関する異なり度合いが判定されると、判定された異なり度合いは、対応する文字列とともに、特定文字列候補データ１２５として、例えば、ＲＡＭ等の主記憶装置に記憶される。なお、異なり度合い判定処理１２０の処理は、後で詳細に説明する。

次に、文解析装置は、異なり度合い判定処理１２０により判定された、同じ文字列の前後の隣接文字に関する異なり度合いに基づいて、その同じ文字列が特定文字列であるか否かを決定し、特定文字列であると決定された場合、その文字列を特定文字列データ１３５に記憶する（特定文字列決定処理１３０）。特定文字列データ１３５は、例えば、ＲＡＭ等の主記憶装置や、ハードディスクや半導体メモリのような外部記憶装置に記憶される。また、特定文字列データ１３５は、様々なデータフォーマット、データ記憶形式をとることができ、例えば、データベースとして構成することもできる。

上述のように、同じ文字列について、それらの前後の隣接文字にどのようなバリエーションがあるかを見ると、隣接文字の出現要素数が小さい場合、その隣接文字と「同じ文字列」は一体となって、よく使われる別の文字列を形成していると考えることができ、他方、隣接文字の出現要素数が大きい場合は、隣接文字と「同じ文字列」が区切られ、その「同じ文字列」が独立した用語であって重要性の高い語である可能性が高いと考えられる。また、その「同じ文字列」が特定文字列であるか否かは、前の隣接文字の異なり度合いと後の隣接文字の異なり度合いのほかに、さらなる要素を考慮して決定することができる。こうした、特定文字列決定処理１３０については、後で詳細に説明する。

さらに、特定文字列決定処理１３０では、特定文字列が複数決定された場合に、特定文字列として決定された文字列の間でランク付けを行うようにすることができる。こうしたランク付けは、例えば、文字列の重要度に関するランク付けであり、その文字列に関する、前後の隣接文字の異なり度合いのほかに、さらなる要素を考慮して決定することができる。例えば、文字列の文字長、出現頻度等に基づいてランク付けがされうる。また、順位を示すだけでなく、相対的な程度の差を表すことができるように、数値によってランク付けを行うこともできる。

＜＜本発明の一実施形態に係る文解析装置の文字列検索処理の説明＞＞
最初に、上述のテキストデータ取得処理１００により、どのようなテキストデータ２００が文字列検索処理１１０の入力として提供されるかを、図２を参照して説明する。図２には、ＷＥＢブラウザのウインドウ１５０に表示されたＷＥＢページが示されている。ＷＥＢページには、イメージ表示部１６０、テキスト表示部１７０、及びイメージ表示部１８０が示されている。ＷＥＢブラウザは、取得したＨＴＭＬデータを解釈して、上述した各表示部に、それぞれイメージ及びテキストを表示させる。テキストデータ取得処理１００では、このようなＨＴＭＬデータから、タグを参照して、テキスト表示部１７０に示されているようなテキスト部分だけをテキストデータ２００として取り出し、文字列検索処理１１０に提供する。

なお、ここでは、テキストデータ２００を、１つのＷＥＢページ（ＨＴＭＬデータ）に含まれるデータから取得するようにしたが、上述のように、様々な方法でテキストデータ２００を収集し、取得することができる。また、図２には、説明の便宜上ＷＥＢページを表示したが、テキストデータ２００は、タグを参照してＨＴＭＬデータから直接取得することができるため、文解析装置やその他の装置のディスプレイに図２のようなウインドウ１５０を表示させる必要はない。

次に、図３ないし図５を参照して、文字列検索処理１１０を説明する。図３は、文字列検索処理１１０の処理手順を表すフローチャートである。図４、図５は、サフィックスアレイと二分探索を用いた文字列検索の仕組みを示す図であり、検索対象の文字列として、図２のテキスト表示部１７０に表示されたテキストの一部である「このコードがコードリストにある」との文字列１７１が設定される。ＷＥＢページからテキストデータを取得する場合、通常は、１つまたは複数のＷＥＢページのテキスト部分すべてが検索対象となるが、ここでは、例示のため、テキスト部分の一部としている。

最初に、文字列「このコードがコードリストにある」のなかから同じ文字列を検索するために、サフィックスアレイを作成する。図３のステップＳ１０において、テキストデータの最初の文字から最終の文字まで、サフィックスを展開する。ここで、図４を参照すると、図４（Ａ）に示された、検索対象のテキストデータ２００−１（「このコードがコードリストにある」）から、図４（Ｂ）に示すように、１〜１５までのインデックスが付されたサフィックスが展開されている。それぞれのサフィックスは、検索対象のテキストデータ２００−１において、インデックスの位置（開始文字位置）から末尾までの文字列であり、例えば、インデックス「１」については、検索対象のテキストデータ２００−１の１文字目から末尾（１５文字目）までの文字列「このコードがコードリストにある」が示されている。また、インデックス「１０」については、検索対象のテキストデータ２００−１の１０文字目から末尾（１５文字目）までの文字列「リストにある」が示されている。最後のインデックス「１５」については、末尾である１５文字目の文字「る」が示されている。

次に、図３のステップＳ１１において、展開されたサフィックスを所定順序でソートし、サフィックスアレイを作成する。ここで、図４を参照すると、図４（Ｂ）に示されたサフィックスがソートされ、ソート後のサフィックスアレイが図４（Ｃ）に示されている。ソートは、例えば、各文字に対応する文字コード（この例ではＪＩＳコード）によって行われ、１レコード目から４レコード目にかけて、１文字目が、「ー」（ＪＩＳコード＝213C）、「あ」（ＪＩＳコード＝2422）、「が」（ＪＩＳコード＝242C）のように、当該文字コード順にソートされていることが分かる。１レコード目と２レコード目は、１文字目と２文字目が同じであるが、３文字目が「が」と「リ」で異なり（「が」（ＪＩＳコード＝242C）、「リ」（ＪＩＳコード＝256A））、それによって、１レコード目が最初に配置されている。なお、インデックスは、図４（Ｂ）のインデックスが、対応するレコードに付随してそのまま付与されている。

次に、図３のステップＳ１２において、順次、テキストデータ内から検索文字列を１つずつ決定する。これは、テキストデータ内に同じ文字列があるかどうかを検索するのであるから、テキストデータ内のすべての部分文字列を検索文字列として、テキストデータと照合する。例えば、図４の検索対象のテキストデータ２００−１に関しては、１文字の検索文字列「こ」〜「る」、２文字の検索文字列「この」、「のコ」、・・・、「にあ」、「ある」、３文字の検索文字列「このコ」、「のコー」、・・・、「トにあ」、「にある」等が順に決定され、以下同様に、１５文字の「このコードがコードリストにある」までが検索文字列となる。ただしこの場合、１文字や１５文字の検索文字列については、検索対象のテキストデータ２００−１と照合する意味がないので、省略することができる。また、それ以外にも、検索文字列の文字長を所定の範囲に限定することができる。

次に、図３のステップＳ１３において、検索を行う検索文字列がすべて終了したか否かが判定される。ここで、すべて終了した場合は、文字列検索処理が終了する。まだすべてが終了していない場合は、ステップＳ１４において、検索文字列を検索キーとして、サフィックスアレイを検索する。ここで、図５を参照すると、図５（Ａ）及び図５（Ｂ）に示すように、検索文字列として、検索対象のテキストデータ２００−１内から３文字の文字列「コード」が決定された場合の検索処理が示されている。このとき、図５（Ｃ）のサフィックスアレイに対して二分探索が行われる。図５（Ｃ）のサフィックスアレイは、図４（Ｃ）に示すサフィックスアレイと同じものであり、図５（Ｃ）では、二分探索による検索の過程が示されている。

図５（Ｃ）を参照すると、まず、サフィックスアレイの中央のレコード（１）（インデックス＝１５、文字列「る」）と検索文字列「コード」を比較する。このとき、「る」のＪＩＳコードは246B、「コ」のＪＩＳコードは2533で、「コ」の方が大きいので、レコード（１）より下でサフィックスアレイの下半分の中心に位置するレコード（２）（インデックス＝１２、文字列「トにある」）と検索文字列「コード」を比較する。このとき、「ト」のＪＩＳコードは2548、「コ」のＪＩＳコードは2533で、「コ」の方が小さいので、レコード（１）とレコード（２）の中心に位置するレコード（３）（インデックス＝７、文字列「コードリストにある」）と検索文字列「コード」を比較する。

そうすると、レコード（３）の最初の３文字と検索文字列「コード」が一致するため、検索文字列と同じ文字列が検索対象のテキストデータ２００−１に見つかったことになる。さらにその後、レコード（３）の上下のレコードと比較すると、レコード（４）の最初の３文字と検索文字列「コード」が一致するため、検索文字列と同じ文字列が検索対象のテキストデータ２００−１が見つかったことになる。このような二分探索により、検索対象のテキストデータ２００−１のなかに、「コード」という文字列が２つあることがわかる（そのうちの１つは、検索対象のテキストデータ２００−１から抽出された検索文字列「コード」それ自体である）。

次に、図３のステップＳ１５において、検索文字列が所定数ヒットしたか否かが判定される。検索文字列が所定数ヒットしないと判定された場合、その文字列を特定文字列の候補とすることなく、次の検索文字列による検索を行うため、ステップＳ１２に進む。ここで、所定数は、検索対象のテキストデータ２００−１の文字数や、検索文字列の文字数など、様々な要素に基づいて決定されうる。所定数ヒットしないということは、検索対象のテキストデータ２００−１において、その検索文字列の出現頻度が小さく、重要な語ではないということを表している。なお、この段階では、出現頻度を評価することなく、特定文字列の候補として記憶しておき、後続の特定文字列決定処理等において最終的に判断するように構成することもできる。

ステップＳ１５において、検索文字列が所定数ヒットしたと判定された場合、ステップＳ１６に進み、そこで、検索キー（検索文字列）に一致した文字列を特定文字列の候補とし、それぞれ、前後の隣接文字とともに、１レコードとして主記憶装置等に記憶する。ここで、図５（Ｃ）を参照すると、検索結果として、検索文字列「コード」と一致する文字列が先頭に見つかったレコード（３）とレコード（４）について、それぞれ、検索文字列と同じ文字列「コード」と、前後の隣接文字が、１レコードとして記憶される。例えば、レコード（３）については、「が」、「コード」、「リ」が１レコードとして記憶される。前の隣接文字が「が」であり、後の隣接文字が「リ」である。また、レコード（４）については、「の」、「コード」、「が」が１レコードとして記憶される。前の隣接文字が「の」であり、後の隣接文字が「が」である。

このように、本実施形態の文解析装置では、上述のように、サフィックスアレイと二分探索を用いて、高速にテキストデータ内で同じ文字列を見つけ出すように構成されているが、本発明は当該処理方法に限定されるものではない。上述した以外の方法で、テキストデータ内の同じ文字列を見つけ出すようにすることができる。

＜＜本発明の一実施形態に係る文解析装置の異なり度合い判定処理の説明＞＞
次に、図６及び図７を参照して、本発明の実施形態に係る文解析装置の異なり度合い判定処理について、より詳細に説明する。

図６は、異なり度合い判定処理１２０の処理手順を表すフローチャートである。図７は、前後の隣接文字の異なり度合いを判定するための仕組みを示す図であり、図５に示すような、検索文字列「コード」での文字列検索処理を、多くの文字を含む検索対象文字列に対して行った結果、検索結果として検索文字列「コード」が２６個得られ、それに対応する２６件のレコードを処理する状況を示している。

最初に、図６のステップＳ２０において、文字列検索処理１１０で、検索結果データ１１５に記憶された文字列のレコード（前後の隣接文字を含む）から、１つの文字列に関するレコードを取り出す。ここで、図７（Ａ）を参照すると、検索結果データ１１５に記憶された文字列「コード」についてのレコード（全２６レコード）が取り出され、メモリに展開された様子が示されている。

次に、図６のステップＳ２１において、検索結果データ１１５に記憶された文字列のレコードをすべて取得し、異なり度合い判定処理を行うべきデータがなくなったと判定された場合、図６の異なり度合い判定処理は終了する。ステップＳ２１において、すべての処理が終了しておらず、検索結果データ１１５に記憶された文字列の１つについてすべてのレコードが取得できている場合は、ステップＳ２２に進む。

次に、図６のステップＳ２２において、検索結果データ１１５に記憶された文字列の１つについて取得したすべてのレコードについて、前の隣接文字でソートし、前の隣接文字に関する出現文字のパターン数を求める。ここで、図７（Ａ）を参照すると、検索結果データ１１５に記憶された文字列「コード」について取得したレコード（全２６件）について、前の隣接文字２１１でソートした結果が示されている。このソートは、上述した文字列検索処理におけるサフィックスアレイの作成のときと同様、文字コード（例えば、ＪＩＳコード）を用いて行うことができる。このようなソートを行った後、レコード間で前の隣接文字２１１の値が変化した（ブレークした）回数をカウントすることによって、前の隣接文字２１１の出現文字のパターン数が分かる。図７（Ａ）の場合、前の隣接文字２１１は、「」、「（」、「、」、「「」、「が」、「た」、「で」、「ど」、「の」、「は」、「べ」、「も」、「り」の１３パターンである。

このように、本実施形態の文解析装置では、前の隣接文字２１１をソートし、その値が各レコード間で変化したかどうかで、前の隣接文字に関する出現文字のパターン数を求めているが、本発明は当該処理方法に限定されるものではない。出現文字のパターン数は、他の様々な方法で求めることができる。また、所定の文字や文字パターンに関する扱いを、仕様に応じて柔軟に設定することができる。例えば、改行・改ページなどの制御文字等を考慮しないようにすることができる。また、句点や読点などを考慮することもできるし、無視することもできる。さらに、英字の大文字と小文字を同じ文字として扱うこともできるし、別の文字として扱うこともできる。また、ソートについては、半角英数などの１バイトコード文字については、対応する１バイトをソートし、漢字などの２バイトコード文字については、対応する２バイトをソートする。また、前の隣接文字２１１をソートする場合、本実施形態では、１文字の隣接文字をソートすることとしているが、２文字以上の文字をソートして、その異なり度合いを判定するようにもできる。

次に、図６のステップＳ２３において、前の隣接文字２１１に関する異なり度合いを判定する。この場合、異なり度合いは、隣接文字２１１が（図７（Ａ）の２６件のレコードの間で）、どの程度異なっているかを示す指標であり、従って、上述した前の隣接文字に関する出現文字のパターン数に基づいて判定される。異なり度合いは、パターン数そのものであってもよいが、例えば、文字列の出現頻度（図７（Ａ）の場合は、「コード」の出現頻度が２６）等を考慮して判定することもできる。また、異なり度合いを所定の閾値により複数の段階（例えば、３段階）で評価することもできる。またさらに、隣接文字２１１が特定の文字である場合に、その文字のカウントや異なり度合いの判定に関し、任意の重み付けを行うようにすることもできる。

次に、図６のステップＳ２４において、検索結果データ１１５に記憶された文字列の１つについて取得したすべてのレコードについて、後の隣接文字でソートし、後の隣接文字に関する出現文字のパターン数を求める。ここで、図７（Ｂ）を参照すると、検索結果データ１１５に記憶された文字列「コード」について取得したレコード（全２６件）について、後の隣接文字２１３でソートした結果が示されている。このようなソートにより、図７（Ａ）に示したレコード２１５、レコード２１６は、それぞれ点線矢印に示す位置に配置される。

このソートは、上述した文字列検索処理におけるサフィックスアレイの作成のときと同様、文字コード（例えば、ＪＩＳコード）を用いて行うことができる。このようなソートを行った後、レコード間で後の隣接文字２１３の値が変化した（ブレークした）回数をカウントすることによって、後の隣接文字２１３の出現文字のパターン数が分かる。図７（Ｂ）の場合、後の隣接文字２１３は、「、」、「「」、「」」、「が」、「で」、「と」、「に」、「の」、「は」、「を」、「リ」、「支」の１２パターンである。

このように、本実施形態の文解析装置では、後の隣接文字２１３をソートし、その値が各レコード間で変化したかどうかで、後の隣接文字に関する出現文字のパターン数を求めているが、本発明は当該処理方法に限定されるものではない。出現文字のパターン数は、他の様々な方法で求めることができる。また、所定の文字については、当該パターン数のカウントに含めないようにすることができる。また、ソートについては、半角英数などの１バイトコード文字については、対応する１バイトをソートし、漢字などの２バイトコード文字については、対応する２バイトをソートする。また、後の隣接文字２１３をソートする場合、本実施形態では、１文字の隣接文字をソートすることとしているが、２文字以上の文字をソートして、その異なり度合いを判定するようにもできる。

次に、図５のステップＳ２５において、後の隣接文字２１３に関する異なり度合いを判定する。この場合、異なり度合いは、隣接文字２１３が（図７（Ｂ）の２６件のレコードの間で）、どの程度異なっているかを示す指標であり、従って、上述した後の隣接文字に関する出現文字のパターン数に基づいて判定される。異なり度合いは、パターン数そのものであってもよいが、例えば、文字列の出現頻度（図７（Ｂ）の場合は、「コード」の出現頻度が２６）等を考慮して判定することもできる。また、異なり度合いを所定の閾値により複数の段階（例えば、３段階）で評価することもできる。またさらに、隣接文字２１３が特定の文字である場合に、その文字のカウントや異なり度合いの判定に関し、任意の重み付けを行うようにすることもできる。

次に、図６のステップＳ２６において、判定対象の文字列、及び、その文字列に関して判定された、前の隣接文字に関する異なり度合いと後の隣接文字に関する異なり度合いが、特定文字列候補データ１２５に記憶される。

図６のステップＳ２６の処理が終了すると、ステップＳ２０に進み、次の「同じ文字列」に関する処理が行われる。

＜＜本発明の一実施形態に係る文解析装置の特定文字列決定処理の説明＞＞
特定文字列決定処理においては、異なり度合い判定処理により特定文字列候補データ１２５に記憶されたデータを順次読み出し、判定された前後の隣接文字の異なり度合いに基づいて、対応する文字列が特定文字列か否かを決定し、決定された特定文字列を特定文字列データ１３５に記憶する。より具体的には、前後の隣接文字の異なり度合いの大小に応じて、対応する文字列が特定文字列であるか否かを決定する。

前後の隣接文字の異なり度合いの大小については、共通の、または前後で異なる判断基準により判断されうる。前後の隣接文字の異なり度合いが、所定の大きさであると判断された場合に、対応する文字列は、独立した用語であって、話題を識別する重要な語である特定文字列として決定される。すなわち、前後の隣接文字の異なり度合いによりスコアが計算され、そのスコアに基づいて、その対応する文字列が特定文字列であるか否かを決定するようにしてもよい。

また、特定文字列決定処理では、前後の隣接文字の異なり度合いに加えて、対応する文字列の文字長、対応する文字列の出現頻度、特定の文字が前の隣接文字として出現する確率・頻度、特定の文字が後の隣接文字として出現する確率・頻度、特定の文字の組合せが前後の隣接文字として出現する確率・頻度等を考慮してスコアを計算し、計算されたスコアに基づいて、その対応する文字列が特定文字列であるか否かを決定するようにしてもよい。

さらに、１つのテキストデータ（検索対象の文字列）において、複数の特定文字列の候補がある場合に、その候補の数や、それぞれについて計算されたスコアの分布に応じて、特定文字列として決定するための決定条件を変化させることもできる。

またさらに、特定文字列決定処理では、１つのテキストデータ（検索対象の文字列）について決定された特定文字列が複数ある場合に、特定文字列として決定された文字列の間でランク付けを行うようにすることができる。こうしたランク付けは、例えば、話題に関する文字列の重要度に関するランク付けであり、上述した、前後の隣接文字の異なり度合いにより計算されたスコアや、前後の隣接文字の異なり度合いに加え、他の様々な要素を加味して計算されたスコア等に基づいて決定される。また、このようなランク付けは、特定文字列として決定された文字列の重要度を順序付けるだけでなく、特定文字列間の相対的な重要度を示すことができるように、例えば、上述のスコアの値を用いる等して、具体的な数値によりランク付けを行うことができる。

また、このようなランク付けは、特定文字列が複数決定された場合に行われるが、１つのテキストデータに関して決定された複数の特定文字列について行うこともできるし、所定の条件によりグルーピングされた複数のテキストデータに関して決定された複数の特定文字列について行うこともできる。

例えば、所定の条件によりグルーピングされた複数のテキストデータとして、入力された検索キーワードにヒットしたＷＥＢページ群のテキストデータや、所定の属性に該当するユーザのTWITTERの内容などが考えられる。

＜＜＜テキストデータの把握単位と特定文字列データ＞＞＞
ここで、図８を参照して、文解析の対象となるテキストデータが、どのような単位で把握され、それに応じて、話題を識別するための特定文字列がどのように決定され、ランク付けられるかについて、実施例を説明する。

図８の例では、テキストデータ２００には、テキストデータ２００ａ、テキストデータ２００ｂ−１、テキストデータ２００ｂ−２、テキストデータ２００ｂ−３、テキストデータ２００ｃが含まれるものとし、これらは、キーワード「ネットワークの設定」を用いたＷＥＢページの検索でヒットした５つのＷＥＢページからそれぞれ得られたテキストデータであるとする。また、テキストデータ２００ａはサイトＡのＷＥＢページから得られたテキストデータであり、テキストデータ２００ｂ−１、テキストデータ２００ｂ−２、及びテキストデータ２００ｂ−３はサイトＢのＷＥＢページから得られたテキストデータであり、テキストデータ２００ｃはサイトＣのＷＥＢページから得られたテキストデータであるとする。

文解析装置４００は、これらのテキストデータ２００を取得して、このなかから特定文字列を決定する。第１の実施例では、文解析装置４００が、特定文字列データ１３５−１に示すように、特定文字列を記憶する。この例で、文解析装置４００は、テキストデータ２００ａ、テキストデータ２００ｂ−１、テキストデータ２００ｂ−２、テキストデータ２００ｂ−３、及びテキストデータ２００ｃをひとまとまりのテキストデータとして把握し、そこで、４つの特定文字列（ネットワーク、トラブル、設定、ＭＡＣ）を決定し、この順にランク付けした。これは、「ネットワークの設定」というキーワードにより、１つの文解析の対象となるテキストデータが引き出されたものである。

第２の実施例では、文解析装置４００が、特定文字列データ１３５−２に示すように、特定文字列を記憶する。この例で、文解析装置４００は、テキストデータ２００ａ、テキストデータ２００ｂ−１、テキストデータ２００ｂ−２、テキストデータ２００ｂ−３、及びテキストデータ２００ｃをそれぞれ別個のテキストデータとして把握し、これらのテキストデータごと（テキストデータの原データであるＷＥＢページのアドレスごと）に、特定文字列（例えば、テキストデータ２００ａに関しては、ネットワーク、設定、トラブル、アドレス）を決定し、それぞれランク付けした。これは、「ネットワークの設定」というキーワードにより得られたテキストデータを、原データのＷＥＢページごとに文解析の対象としたものである。

第３の実施例では、文解析装置４００が、特定文字列データ１３５−３に示すように、特定文字列を記憶する。この例で、文解析装置４００は、ＷＥＢページのサイトごとにテキストデータを把握し、テキストデータ２００ａをグループＡ、テキストデータ２００ｂ−１、テキストデータ２００ｂ−２、及びテキストデータ２００ｂ−３をグループＢ、テキストデータ２００ｃをグループＣとし、このような３つのグループに分類してそれぞれのグループごとに、特定文字列（例えば、グループＡに関しては、ネットワーク、設定、トラブル、説明書）を決定し、それぞれランク付けした。これは、「ネットワークの設定」というキーワードにより得られたテキストデータを、原データのＷＥＢページのサイトごとに文解析の対象としたものである。

＜＜＜本発明の一実施形態に係る文解析装置における適用例の説明＞＞＞
次に、図９を参照して、本発明の一実施形態に係る文解析装置４００において、ＷＥＢページの検索結果からテキストデータ２００を取得し、そのテキストデータ２００の文解析によって決定した特定文字列を表示する適用例について説明する。

最初に、ユーザが検索端末６００で動作する一般的なＷＥＢブラウザを操作して、ＷＥＢページの検索を行う。この検索は、例えば、一般的に利用可能なインターネット検索である。ユーザがＷＥＢブラウザにより、検索キーワードを入力し、検索ボタンを押すと、検索リクエストが検索サーバ６１０に送信され、そこで検索サーバ６１０は受信した検索キーワードに基づいて、その検索キーワードに関連するＷＥＢページを検索し、得られた検索結果６２０を検索端末６００に返信する。検索結果には、検索キーワードに関連するＷＥＢページのアドレス（例えば、ＵＲＬ等のインターネットアドレス識別情報）が含まれている。

検索端末６００に検索結果６２０が送信されると、検索端末６００で動作するアプリケーション（アプリケーションプログラム）６０１が、検索結果６２０を、（例えば、ＡＰＩ送信により）文解析装置４００に送信する。文解析装置４００は、検索結果６２０を受信すると、検索結果６２０に含まれるＷＥＢページのアドレスにアクセスして、それぞれのＷＥＢページからテキストデータ２００を取得する。

その後、文解析装置４００は、取得したテキストデータ２００に対して、上述した文字列検索処理１１０、異なり度合い判定処理１２０、特定文字列決定処理１３０を行い、話題を識別する重要な特定文字列を決定し、特定文字列データ１３５に記憶する。また、複数の特定文字列が決定された場合はランク付けを行う。

文解析装置４００は、特定文字列を決定した後、特定文字列の表示を行うために編集・生成された特定文字列表示データ３００を検索端末６００に送信し、検索端末６００のＷＥＢブラウザは、受信した特定文字列表示データ３００に基づいて、特定文字列を検索端末６００のディスプレイ６０２に表示する。テキストデータ２００が所定の条件によりグルーピングされている場合は、そのグループごとに、ランク付けされた特定文字列が表示される。

このような文解析装置４００等の処理により、ユーザが検索端末６００で検索キーワードを入力しＷＥＢページの検索を指示してからディスプレイ６０２に特定文字列が表示されるまでが瞬時に行われる。なお、この例では、決定された特定文字列は特定文字列データ１３５に記憶され、特定文字列データ１３５は、その後の利用を考慮してハードディスクや半導体メモリのような外部記憶装置に記憶されるが、決定された特定文字列を瞬時に検索端末６００のディスプレイ６０２に表示するだけであれば、特定文字列データ１３５をＲＡＭやＶＲＡＭ等に一時的に記憶するだけでよい。

なお、この例では、検索端末６００において、ＷＥＢブラウザが、ＷＥＢページの検索や特定文字列表示データ３００の表示を行うように構成しているが、アプリケーション６０１がこれらの機能を備えるように構成することもできる。また、アプリケーション６０１または文解析装置４００は、必要に応じて、検索結果６２０に含まれるＷＥＢページの一部（例えば、検索キーワードとの関連が低い（ランクの低い）ＷＥＢページ）のアドレスを削除するようにできる。これは、関連の低い特定文字列が抽出されることを防止するためである。

また、この例では、検索端末６００が、検索結果６２０として検索キーワードに関連するＷＥＢページのアドレスを文解析装置４００に送信するが、検索端末６００において、これらのＷＥＢページにアクセスし、その結果得られたテキストデータを検索結果６２０として文解析装置４００に送信するようにもできる。

また、上述のように、テキストデータ２００が所定の条件によりグルーピングされている場合は、そのグループごとに特定文字列が表示されるが、このことは、特定文字列の集合（１つのグループに複数の特定文字列が存在する）の集合（グループごとに特定文字列の集合が存在する）が管理されていることを示している。このような、特定文字列の集合をさらに集合として管理することにより（例えば、異なる特定文字列の集合において、共通の特定文字列が発見されることにより）、複数の特定文字列の集合のなかでの特定文字列の繋がりを見い出すことができる。

＜＜＜本発明の一実施形態に係る文解析装置の構成の説明＞＞＞
次に、図１０を参照して、本発明の一実施形態に係る文解析装置４００の構成を説明する。文解析装置４００は、テキストデータ取得処理部４２１、文字列検索処理部４２２、異なり度合い判定処理部４２３、特定文字列決定処理部４２４、及びネットワークインタフェース（Ｉ／Ｆ）部４２５を備える。さらに、特定文字列決定処理部４２４には、特定文字列決定部４２４ａ、及びランク付け管理部４２４ｂが含まれる。また、文解析装置４００は、ＲＡＭ等の主記憶装置またはハードディスクや半導体メモリのような外部記憶装置に、特定文字列データ１３５を記憶する。

テキストデータ取得処理部４２１は、テキストデータ２００を取得し、これを文字列検索処理部４２２に提供する（図１に示すテキストデータ取得処理１００）。文字列検索処理部４２２は、図１に示す文字列検索処理１１０を行う。異なり度合い判定処理部４２３は、図１に示す異なり度合い判定処理１２０を行う。また、特定文字列決定処理部４２４は、特定文字列を決定し、必要に応じて、決定された特定文字列を特定文字列データ１３５に記憶する（図１に示す特定文字列決定処理１３０）。ネットワークインタフェース（Ｉ／Ｆ）部４２５は、インターネット等のネットワークを介した、図９に示す検索端末６００を含む他のコンピュータとのアクセスと、これらのコンピュータとのデータ送受信を制御する。

また、特定文字列決定部４２４ａは、テキストデータ２００に含まれる同じ文字列に関する前後の隣接文字の異なり度合い等から、当該同じ文字が特定文字列であるか否かを決定する。ランク付け管理部４２４ｂは、１つのテキストデータ２００において、複数の特定文字列が決定される場合に、その特定文字列についてランク付けを行う。

＜＜＜本発明の一実施形態に係る文解析装置のハードウェア構成の説明＞＞＞
次に、図１１を参照して、本発明の一実施形態に係る文解析装置４００として用いられるコンピュータのハードウェア構成の例について説明する。ただし、図１０に示す文解析装置４００は、その代表的な構成を例示したにすぎない。

文解析装置４００は、ＣＰＵ（Central Processing Unit）４０１、ＲＡＭ（Random Access Memory）４０２、ＲＯＭ（Read Only Memory）４０３、ネットワークインタフェース４０４、オーディオ制御部４０５、マイクロフォン４０６、スピーカ４０７、ディスプレイコントローラ４０８、ディスプレイ４０９、入力機器インタフェース４１０、キーボード４１１、マウス４１２、外部記憶装置４１３、外部記録媒体インタフェース４１４、及びこれらの構成要素を互いに接続するバス４１５を含んでいる。

ＣＰＵ４０１は、文解析装置４００の各構成要素の動作を制御し、ＯＳの制御下で、本発明に係るテキストデータ取得処理１００、文字列検索処理１１０、異なり度合い判定処理１２０、及び特定文字列決定処理１３０の実行を制御する。

ＲＡＭ４０２には、ＣＰＵ４０１で実行される特定文字列決定処理１３０等を実行するためのプログラムや、それらのプログラムが実行中に使用するデータが一時的に格納される。図１に示す検索結果データ１１５、特定文字列候補データ１２５、特定文字列データ１３５も、このようなＲＡＭ４０２に一時的に記憶されうる。ＲＯＭ４０３には、文解析装置４００の起動時に実行されるプログラム等が格納される。

ネットワークインタフェース４０４は、ネットワーク５００に接続するためのインタフェースである。ネットワーク５００は、例えば、図９に示す検索端末６００と文解析装置４００との間のネットワークや、インターネットのようなネットワークである。

オーディオ制御部４０５は、マイクロフォン４０６とスピーカ４０７を制御して音声の入出力を制御する。ディスプレイコントローラ４０８は、ＣＰＵ４０１が発行する描画命令を実際に処理するための専用コントローラである。ディスプレイ４０９は、例えば、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）で構成される表示装置である。

入力機器インタフェース４１０は、キーボード４１１やマウス４１２から入力された信号を受信して、その信号パターンに応じて所定の指令をＣＰＵ４０１に送信する。

外部記憶装置４１３は、例えば、ハードディスクや半導体メモリのような記憶装置であり、この装置内には上述したプログラムやデータが記録され、実行時に、必要に応じてそこからＲＡＭ４０２にロードされる。例えば、図１に示す特定文字列データ１３５も、このような記憶装置に記憶されうる。

外部記録媒体インタフェース４１４は、外部記録媒体５１０にアクセスして、そこに記録されているデータを読み取る。外部記録媒体５１０は、例えば、可搬型のフラッシュメモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）などである。ＣＰＵ４０１で実行され、本発明の各機能を実現するためのプログラムは、この外部記録媒体インタフェース４１４を介して外部記録媒体５１０から提供されうる。また、本発明の各機能を実現するためのプログラムの他の流通形態としては、ネットワーク上の所定のサーバから、ネットワーク５００及びネットワークインタフェース４０４を介して外部記憶装置４１３やＲＡＭ４０２に格納されるというルート等も考えられる。

ここまで、本発明の一実施形態に係る文解析装置のハードウェア構成について、一例を説明してきたが、図９に示す検索端末６００のハードウェア構成も基本的に、図１１に示す構成と同様である。ただし、ここで、文解析装置４００に関しては、オーディオ制御部４０５、マイクロフォン４０６、スピーカ４０７、ディスプレイコントローラ４０８、ディスプレイ４０９、入力機器インタフェース４１０、キーボード４１１、及びマウス４１２は必須の構成要素ではない。また、検索端末６００に関しては、ディスプレイ６０２はディスプレイ４０９に相当するものであり、オーディオ制御部４０５、マイクロフォン４０６、及びスピーカ４０７は必須の構成要素ではない。

これまで、本発明の一実施形態に係る文解析装置について、本発明を実施することができるいくつかの実施例を示しながら説明してきたが、これらの実施例は本発明を説明するための一例に過ぎず、本発明の権利範囲はこれらの実施例に限定されることはない。これらの実施例以外の様々な方法や構成によって、本発明の技術的思想を実現することができる。

＜＜＜本発明の情報更新装置における技術的思想の概要＞＞＞
本発明の情報更新装置は、異なる収集条件によって収集されたテキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を、テキストデータに対応する辞書に記憶し、これらの辞書について比較処理を行うことによって得られた比較結果を更新する。比較処理は、辞書の更新がされた場合に自動的に行われる。

本明細書では、テキストデータから抽出される、意味識別可能な文字列を「関連詞」と称する。関連詞は、検索に用いるキーワードとは異なる概念の文字列である。また、関連詞を用いて、話題の近さや繋がり方を判定することができる。このような構成によって、本発明の情報更新装置について、より多様な応答システム等への適用が可能となる。

異なる辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータであり、これらのテキストデータは、例えば、同様の対象やデータソースについて異なるタイミングで収集される複数のテキストデータであったり、同様のタイミングにおいて、異なる主題や検索条件によって収集される複数のテキストデータであったりする。

上記の比較処理は、複数の辞書を比較して、新たに出現した関連詞のほか、消滅した関連詞、共通して出現する関連詞、（３つ以上の時系列テキストデータに対応する辞書において）再度出現した関連詞など、関連詞の出現状況を判定し、関連詞がこのような出現状況のうちいずれかである場合に、その関連詞を比較結果として記憶する。

また、１つのテキストデータから複数の関連詞が抽出された場合に、それらの関連詞を１つの集合として（共起関連詞として）関連付け、対応する辞書に記憶することができる。このように構成することにより、比較処理において、複数の辞書で共通する関連詞があると判定された場合に、その関連詞の共起関連詞を比較し、さらなる判定を行うことができる。

このように、関連詞の出現に関する履歴等をとらえることにより、関連詞の意味を炙りだせるようになる。すなわち、このような処理を繰り返すことにより、関連詞が所属する話題名が明確となるほか、いつもの関連詞と（新たに出現した）新着関連詞とを区別して扱うことができたり、辞書の比較処理によって、話題の類似性や相違性についての判断をしたりすることができる。こうした機能を、関連詞学習機能と称することとする。関連詞学習機能により、エンドユーザの入力識別手段が多様化することが期待できる。

また、収集され、関連詞が抽出されるテキストデータは、どのような内容のデータであってもよい。代表的な例としては、個人によって生成された、インターネット上に公開されているホームページやブログのテキストデータ、及びTWITTER（登録商標）のツイート情報がある。また、個人のほか、任意の機関によって事前に生成・編集されたデータやデータベース内のテキスト情報であってもよい。さらに、音声ファイル・動画ファイルから音声認識処理を経て取得されるテキストデータ等、様々なデータを用いることができる。

また、テキストデータは、所定条件によって、原データから選択されたデータであってもよい。例えば、キーワード検索の検索結果として示されたＷＥＢページ（ホームページ）に記載されているテキストデータや、ある属性を有するユーザのブログに記載された文や、TWITTERにおけるツイート情報などであってもよい。なお、１つのテキストデータは、複数のテキストファイルを含むもの（例えば、１つのＷＥＢサイトに含まれる複数のＷＥＢページ（ＨＴＭＬファイル）を含むもの）であってもよいし、１つのテキストファイルを分割した一部（例えば、１ファイルに含まれるテキストを１万ラインごとに分割したうちの１つ）であってもよい。

＜＜＜本発明の一実施形態に係る情報更新装置の処理概要の説明＞＞＞
図１２を参照して、本発明の一実施形態に係る情報更新装置の処理概要について説明する。最初に、情報更新装置は、テキストデータ１２００を取得する（テキストデータ取得処理１１００）。テキストデータ１２００は、前述のように、様々なデータソースから受信することができる。また、受信したネットワークアドレスにアクセスすることによりテキストデータ１２００を取得するようにもできる。またさらに、取得したテキストデータ１２００、またはテキストデータ１２００を取得する際に、特定のテキストデータだけを取得するようフィルタ処理を行ったり、特定の分類によりグルーピングをしたりすることもできる。

次に、情報更新装置は、テキストデータ取得処理１１００により取得されたテキストデータ１２００から、意味識別可能な文字列を抽出し、抽出された文字列を関連詞辞書１１１５に記憶する（文字列抽出処理１１１０）。このように抽出された文字列は、上述の関連詞に相当するものであり、これらの関連詞は、その関連詞が抽出されたテキストデータ１２００に対応する関連詞辞書１〜３等に、それぞれ記憶される。

テキストデータ１２００から関連詞を抽出する方法として様々な方法が考えられる。例えば、テキストデータ１２００から同じ文字列を検索し、その文字列の前後の隣接文字の異なり度合い（同じ文字列に関するそれぞれの前の隣接文字、後の隣接文字のパターン数）に応じて、その文字列が関連詞か否かを決定する方法がある。また、従来から多く利用されている、形態素データを用いた形態素解析等を用いることもできる。

文字列抽出処理１１１０では、複数のテキストデータ１２００から関連詞が抽出され、それぞれ対応する関連詞辞書１１１５に記憶される。例えば、複数のテキストデータ１２００は、同様の対象やデータソースについて異なるタイミングで収集されたテキストデータであったり、同様のタイミングにおいて、異なる主題や検索条件によって収集される複数のテキストデータであったりする。文字列抽出処理１１１０の詳細な処理については、後で説明する。

次に、情報更新装置は、文字列抽出処理１１１０により、それぞれ関連詞が記憶された複数の関連詞辞書１１１５を比較し、関連詞の出現状況に応じて、比較結果を比較結果データ１１２５に記憶する（辞書比較処理１１２０）。

例えば、異なるタイミングで収集された２つの関連詞辞書（関連詞辞書１、関連詞辞書２）を比較する場合、関連詞辞書１に存在せず、関連詞辞書２に存在する関連詞があれば、これを、新たに出現した新着の関連詞として、比較結果データ１１２５に記憶し、逆に、関連詞辞書１に存在し、関連詞辞書２に存在しない関連詞があれば、これを、消滅した関連詞として、比較結果データ１１２５に記憶する。

また、例えば、異なる主題について同様のタイミングで収集された３つの関連詞辞書（関連詞１〜３）を比較する場合、すべての関連詞辞書１〜３に存在する関連詞があれば、これを、共通した関連詞として比較結果データ１１２５に記憶する。

なお、複数の関連詞辞書において、関連詞がどのような出現状況のときに比較結果データ１１２５に記憶するかは、本発明の情報更新装置が適用される応答システム等に応じて、柔軟に規定することができる。辞書比較処理１１２０の詳細な処理については、後で詳細に説明する。

＜＜本発明の一実施形態に係る情報更新装置の文字列抽出処理の説明＞＞
図１３を参照して、文字列抽出処理１１１０について説明する。図１３は、文字列抽出処理１１１０の処理手順を表すフローチャートである。最初に、ステップＳ１１０において、関連詞を抽出する対象となるテキストデータを読み込む。テキストデータは、上述のように、テキストデータが取得できる限り、どのようなデータであってもよい。

次に、ステップＳ１１１において、ステップＳ１１０で読み込んだテキストデータから、意味識別可能な文字列である関連詞を抽出する。テキストデータから関連詞を抽出する方法は、上述のように、前後の隣接文字の異なり度合いに基づく方法や、形態素解析を用いた方法などを含む様々な方法がある。

次に、ステップＳ１１２において、ステップＳ１１１で１つのテキストデータ１２００に対して複数の関連詞が抽出された場合に、所定の判断基準により、その複数の関連詞にランク付けを行う。例えば、テキストデータ１２００における関連詞の重要度に応じてランク付けを行うことができ、関連詞の文字長や出現頻度に応じてランク付けが行われうる。また、関連詞を、前後の隣接文字の異なり度合いに基づく方法により抽出する場合は、前後の隣接文字の異なり度合いに応じてランク付けが行われる。なお、ランク付けは、このような基準のほか様々な要素、及びこれらの組合せによって行うことができる。このような「ランク」は、話題との関連性を示すものである。また、関連詞が複数抽出された場合であっても、このようなランク付けを行わないようにすることもできる。

次に、ステップＳ１１３において、ステップＳ１１２でランク付けされた関連詞を、テキストデータ１２００に対応する関連詞辞書に記憶する。例えば、１つのテキストデータ１２００から抽出された関連詞は、１つのレコードにまとめて記憶され、各関連詞は、ランク付けに応じた記憶位置（配列エントリー）に記憶される。関連詞は、このように記憶されることにより、複数の関連詞が、１つのテキストデータ１２００（それらの関連詞が抽出されたテキストデータ）に関連付けられた集合として定義される。ランク付けは、その集合のなかで関連詞を順位付けるものである。

文字列抽出処理は、処理対象のテキストデータ１２００が複数ある場合は、上述したステップＳ１１０からステップＳ１１３までの処理を、テキストデータ１２００ごとに繰り返す。

＜＜本発明の一実施形態に係る情報更新装置の辞書比較処理の説明＞＞
図１４を参照して、辞書比較処理１１２０について説明する。図１４は、辞書比較処理１１２０の処理手順を表すフローチャートである。この実施例では、時系列データとして収集された２つのテキストデータ（テキストデータ１、テキストデータ２）から関連詞が抽出され、それぞれ対応する関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、に記憶されている状況で比較処理が行われるものとする。

最初に、ステップＳ１２０において、関連詞辞書（ｉ−１）、関連詞辞書（ｉ）に記憶されている関連詞を読み出す。次に、ステップＳ１２１において、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）の関連詞を比較し、そのなかから関連詞辞書（ｉ−１）に存在せず、関連詞辞書（ｉ）に存在する関連詞を、新たに出現した関連詞（新着関連詞）として比較結果データ１１２５に記憶する。それぞれの関連詞辞書は、例えば、話題名に対応付けられており、辞書比較処理１１２０は、この話題名を用いて比較を行うことができる。新着関連詞は、対応する関連詞辞書を表すことができる話題名、出現状況（この場合は、新たに出現したことを表す「新着」の文字やこれに対応するコード等）とともに比較結果データ１１２５に記憶される。

次に、ステップＳ１２２において、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）の関連詞を比較し、そのなかから関連詞辞書（ｉ−１）に存在し、関連詞辞書（ｉ）に存在しない関連詞を、消滅した関連詞（消滅関連詞）として比較結果データ１１２５に記憶する。それぞれの関連詞辞書は、例えば、話題名に対応付けられており、消滅関連詞は、この話題名、出現状況（この場合は、新たに出現したことを表す「消滅」の文字やこれに対応するコード等）とともに比較結果データ１１２５に記憶される。

その後、ステップＳ１２３において、関連詞辞書（ｉ−１）の内容を関連詞辞書（ｉ）にコピーする。これは、次のタイミングにおいて、文字列抽出処理１１１０が関連詞を記憶するための関連詞辞書（ｉ−１）を用意するためであり、その後、この新たな関連詞辞書（ｉ−１）と、関連詞辞書（ｉ−１）の内容がコピーされた関連詞辞書（ｉ）が、辞書比較処理１１２０によって比較される。

このように、文字列抽出処理１１１０と辞書比較処理１１２０は、所定のタイミングで繰り返し実行されるが、詳細な説明については後述する。また、辞書比較処理１１２０が繰り返し処理されることによって、比較結果データ１１２５に、その処理タイミングにおいてそれぞれ比較結果が記憶されることになるが、比較結果を記憶する際に、それ以前に記憶されていた比較結果を消去するか、累積的に記憶するかは、適用される応答システム等の仕様に応じて決定される。また、比較結果データ１１２５を、辞書比較処理１１２０ごとに別個に用意するようにしてもよい。

また、この例では省略したが、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）を比較して、共通する関連詞（共通関連詞）を比較結果データ１１２５に記憶することもできる。この場合、例えば、関連詞辞書（ｉ−１）において共通関連詞とともに記憶されている他の関連詞（共起関連詞）と、関連詞辞書（ｉ）において共通関連詞とともに記憶されている他の関連詞（共起関連詞）との間に共通性があるか否かをさらに比較して、当該共通性に関する情報を比較結果データ１１２５に記憶することができる。

さらに、上記のような共起関連詞を比較する場合に、それらの共起関連詞に関連付けられたランクを考慮して共通性に関する情報を判定してもよい。例えば、ランクの高い（それらの関連詞で示される話題にとって重要性が高い）共起関連詞が、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）において共通する場合、共通関連詞の共通性はより高く評価されうる。

＜＜＜本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理の説明＞＞＞
図１５は、同じＷＥＢページから時系列に収集された５つのテキストデータ（テキストデータ１〜５）から、文字列抽出処理１１１０によって、それぞれ異なるタイミングで関連詞が抽出され、抽出された関連詞が、それぞれ対応する関連詞辞書（ｉ−１）または関連詞辞書（ｉ）に記憶され、その後、関連詞辞書（ｉ）が更新された場合に、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）とを対象として辞書比較処理１１２０が行われ、これらの処理が、時間（Ｔ＝ｔ１）から（Ｔ＝ｔ５）まで周期的に行われている例を示している（時間（Ｔ＝ｔ６以降は省略した）。

最初に、時間（Ｔ＝ｔ１）において、この時点で所定のＷＥＢページから収集されたテキストデータ１から、文字列抽出処理１１１０ａによって関連詞が抽出され、抽出された関連詞が関連詞辞書（ｉ−１）に記憶される。この文字列抽出処理１１１０ａは、図１３を参照して説明した文字列抽出処理１１１０に対応する。

次の、時間（Ｔ＝ｔ２）において、Ｔ＝ｔ１の場合と同様に、同じＷＥＢページから収集されたテキストデータ２から、文字列抽出処理１１１０ｂによって関連詞が抽出され、抽出された関連詞が関連詞辞書（ｉ）に記憶される。ここで、対象のＷＥＢページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。関連詞辞書（ｉ）に関連詞が記憶されると（更新されると）、辞書比較処理１１２０ａによって関連詞辞書（ｉ−１）と関連詞辞書（ｉ）の比較が行われ、関連詞の出現状況に応じて、例えば、新たに出現した新着関連詞等が比較結果データ１１２５に記憶される。また、比較処理が終わると、関連詞辞書（ｉ）の内容が、関連詞辞書（ｉ−１）にコピーされる。

この辞書比較処理１１２０ａは、図１４を参照して説明した辞書比較処理１１２０に対応する。なお、この図では、辞書比較処理１１２０ａが、Ｔ＝ｔ２のタイミングで行われているように記載されているが、関連詞辞書（ｉ）が更新された後に行われるものである。

次の、時間（Ｔ＝ｔ３）において、Ｔ＝ｔ１、ｔ２の場合と同様に、同じＷＥＢページから収集されたテキストデータ３から、文字列抽出処理１１１０ｃによって関連詞が抽出され、抽出された関連詞が関連詞辞書（ｉ）に記憶される。ここで、対象のＷＥＢページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。関連詞辞書（ｉ）に関連詞が記憶されると（更新されると）、辞書比較処理１１２０ｂによって関連詞辞書（ｉ−１）と関連詞辞書（ｉ）の比較が行われ、関連詞の出現状況に応じて、例えば、新たに出現した新着関連詞等が比較結果データ１１２５に記憶される。また、比較処理が終わると、関連詞辞書（ｉ）の内容が、関連詞辞書（ｉ−１）にコピー（待避）される。

以降、同様にこれらの文字列抽出処理（１１１０ｄ、１１１０ｅ）及び辞書比較処理（１１２０ｃ、１１２０ｄ）を繰り返して、比較結果データ１１２５が、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）を比較した結果得られた関連詞により、各タイミング（Ｔ＝ｔ２〜ｔ５）ごとに更新される。比較結果としての関連詞を最新のものだけ記憶するか累積的に記憶するかは、上述したように、適用する応用システム等の仕様による。

図１６は、同じＷＥＢページから時系列に収集された５つのテキストデータ（テキストデータ１〜５）から、文字列抽出処理１１１０によって、それぞれ異なるタイミングで関連詞が抽出され、抽出された関連詞が、それぞれ対応する関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、または関連詞辞書（ｉ＋１）に記憶され、その後、関連詞辞書（ｉ＋１）が更新された場合に、関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、関連詞辞書（ｉ＋１）とを対象として辞書比較処理１１２０が行われ、これらの処理が、時間（Ｔ＝ｔ１）から（Ｔ＝ｔ５）まで周期的に行われている例を示している（時間（Ｔ＝ｔ６）以降は省略した）。図１５との相違は、関連詞辞書がサイクリックに３つ用いられている点である。

最初に、時間（Ｔ＝ｔ１）において、この時点で所定のＷＥＢページから収集されたテキストデータ１から、文字列抽出処理１１１０ｆによって関連詞が抽出され、抽出された関連詞が関連詞辞書（ｉ−１）に記憶される。

次の、時間（Ｔ＝ｔ２）において、Ｔ＝ｔ１の場合と同様に、同じＷＥＢページから収集されたテキストデータ２から、文字列抽出処理１１１０ｇによって関連詞が抽出され、抽出された関連詞が関連詞辞書（ｉ）に記憶される。ここで、対象のＷＥＢページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。その後、時間（Ｔ＝ｔ３）において、Ｔ＝ｔ１、ｔ２の場合と同様に、同じＷＥＢページから収集されたテキストデータ３から、文字列抽出処理１１１０ｈによって関連詞が抽出され、抽出された関連詞が関連詞辞書（ｉ＋１）に記憶される。ここで、対象のＷＥＢページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。

時間（Ｔ＝ｔ３）において、関連詞辞書（ｉ＋１）に関連詞が記憶されると（更新されると）、辞書比較処理１１２０ｆによって３つの関連詞辞書（関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、関連詞辞書（ｉ＋１））の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ１１２５に記憶される。この実施例では、３つの関連辞書に関する比較が行われるため、２つの関連詞辞書に関する変化に基づいて記憶する関連詞として、例えば、新たに出現した新着関連詞や消滅した消滅関連詞のほか、３つの関連詞辞書に亘る変化に基づいて記憶すべきと判定される関連詞もある。例えば、関連詞辞書（ｉ）において一旦消滅して、関連詞辞書（ｉ＋１）において再度出現した復活関連詞などである。その他、関連詞辞書において関連詞の出現頻度を記憶していることが条件となるが、短期間のうちに（３つの関連詞辞書において）急激に出現頻度が高まった関連詞、（３つの関連詞辞書において）出現頻度が激減した関連詞、（３つの関連詞辞書において）出現頻度が再び高くなった関連詞、他の関連詞の出現頻度が変化するなかで一定範囲の出現頻度を維持する関連詞などを把握することも可能である。

辞書比較処理１１２０ｆにおいて、比較処理が終わると、関連詞辞書（ｉ）の内容が、関連詞辞書（ｉ−１）にコピーされるとともに、関連詞辞書（ｉ＋１）の内容が、関連詞辞書（ｉ）にコピーされる。なお、この図では、辞書比較処理１１２０ｆが、Ｔ＝ｔ３のタイミングで行われているように記載されているが、関連詞辞書（ｉ−１）、及び関連詞辞書（ｉ）が更新された後に行われるものである。

次の、時間（Ｔ＝ｔ４）において、Ｔ＝ｔ１〜ｔ３の場合と同様に、同じＷＥＢページから収集されたテキストデータ４から、文字列抽出処理１１１０ｉによって関連詞が抽出され、抽出された関連詞が関連詞辞書（ｉ＋１）に記憶される。ここで、対象のＷＥＢページにおいて話題や記載内容の変化があれば、抽出される関連詞もそれに応じて変化することになる。関連詞辞書（ｉ＋１）に関連詞が記憶されると（更新されると）、辞書比較処理１１２０ｇによって３つの関連詞辞書（関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、関連詞辞書（ｉ＋１））の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ１１２５に記憶される。また、比較処理が終わると、関連詞辞書（ｉ）の内容が、関連詞辞書（ｉ−１）にコピーされるとともに、関連詞辞書（ｉ＋１）の内容が、関連詞辞書（ｉ）にコピーされる。

以降、同様にこれらの文字列抽出処理１１１０ｊ及び辞書比較処理１１２０ｈを繰り返して、比較結果データ１１２５が、関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、関連詞辞書（ｉ＋１）を比較した結果得られた関連詞により、各タイミング（Ｔ＝ｔ３〜ｔ５）ごとに更新される。比較結果としての関連詞を最新のものだけ記憶するか累積的に記憶するかは、上述したように、適用する応用システム等の仕様による。

なお、図１５の実施例では２つの関連詞辞書を、図１６の実施例では３つの関連詞辞書を（サイクリックに）用いて比較結果データ１１２５を記憶・更新しているが、これ以上の関連詞辞書を用いて辞書比較処理を行ってもよい。これによって、より多くのタイミングにおける関連詞の出現状況を把握することができ、この出現状況が所定条件を満たす場合に、当該関連詞を比較結果データ１１２５に記憶することができる。

図１７は、異なるＷＥＢページ（異なる主題に関するＷＥＢページ）から同タイミングで収集された３つのテキストデータ（テキストデータＡ〜Ｃ）から、文字列抽出処理１１１０によって関連詞が抽出され、抽出された関連詞が、それぞれ対応する関連詞辞書Ａ、関連詞辞書Ｂ、または関連詞辞書Ｃに記憶され、その後、これらの３つの関連詞辞書を対象として辞書比較処理１１２０が行われ、これらの処理が、時間（Ｔ＝ｔ１）から（Ｔ＝ｔ３）まで周期的に行われている例を示している（時間（Ｔ＝ｔ４）以降は省略した）。

最初に、時間（Ｔ＝ｔ１）において、この時点で所定の異なるＷＥＢページからそれぞれ収集された３つのテキストデータ（テキストデータＡ〜Ｃ）から、文字列抽出処理１１１０ｋ、文字列抽出処理１１１０ｍ、文字列抽出処理１１１０ｎによって関連詞が抽出され、抽出された関連詞がそれぞれ、関連詞辞書Ａ、関連詞辞書Ｂ、関連詞辞書Ｃに記憶される。

その後、辞書比較処理１１２０ｋによって３つの関連詞辞書（関連詞辞書Ａ、関連詞辞書Ｂ、関連詞辞書Ｃ）の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ１１２５に記憶される。この実施例では、例えば、３つの関連詞辞書に共通して存在する関連詞が比較結果データ１１２５に記憶される。この場合、テキストデータＡ〜Ｃは、それぞれ異なる主題に関するＷＥＢページから収集されたテキストデータであり、異なる関連詞よりも、３つの関連詞辞書に共通する関連詞（共通関連詞）に着目したほうが、共通の話題を発見することが可能となり、その点で意味のある場合が多い。

また、関連詞辞書Ａにおいて共通関連詞とともに記憶されている他の関連詞（共起関連詞）、関連詞辞書Ｂにおいて共通関連詞とともに記憶されている他の関連詞（共起関連詞）、及び関連詞辞書Ｃにおいて共通関連詞とともに記憶されている他の関連詞（共起関連詞）との間に共通性があるか否かをさらに比較して、当該共通性に関する情報を比較結果データ１１２５に記憶することができる。

さらに、上記のような共起関連詞を比較する場合に、それらの共起関連詞に関連付けられたランクを考慮して共通性に関する情報を判定してもよい。例えば、ランクの高い（それらの関連詞で示される話題にとって重要性が高い）共起関連詞が、３つの関連詞辞書において共通する場合、共通関連詞の共通性はより高く評価されうる。

このような、時間（Ｔ＝ｔ１）における３つの関連詞辞書の比較を、時間（Ｔ＝ｔ２）において繰り返し行うことができる。このような処理を行うことにより、比較結果データ１１２５を時系列に更新することができる。

時間（Ｔ＝ｔ２）において、時間（Ｔ＝ｔ１）と同様に、この時点で所定の異なるＷＥＢページからそれぞれ収集された３つのテキストデータ（テキストデータＡ’〜Ｃ’）から、文字列抽出処理１１１０ｋ’、文字列抽出処理１１１０ｍ’、文字列抽出処理１１１０ｎ’によって関連詞が抽出され、抽出された関連詞がそれぞれ、関連詞辞書Ａ’、関連詞辞書Ｂ’、関連詞辞書Ｃ’に記憶される。この実施例では、テキストデータＡ’は、テキストデータＡと同じＷＥＢページ、または同じ主題のＷＥＢページを想定している。同様に、テキストデータＢ’は、テキストデータＢと同じＷＥＢページ、または同じ主題のＷＥＢページであり、テキストデータＣ’は、テキストデータＣと同じＷＥＢページ、または同じ主題のＷＥＢページである。

その後、辞書比較処理１１２０ｋ’によって３つの関連詞辞書（関連詞辞書Ａ’、関連詞辞書Ｂ’、関連詞辞書Ｃ’）の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ１１２５に記憶される。この実施例では、例えば、３つの関連詞辞書に共通して存在する関連詞が比較結果データ１１２５に記憶される。

さらに、時間（Ｔ＝ｔ３）において、時間（Ｔ＝ｔ１、ｔ２）と同様に、この時点で所定の異なるＷＥＢページからそれぞれ収集された３つのテキストデータ（テキストデータＡ’’〜Ｃ’’）から、文字列抽出処理１１１０ｋ’’、文字列抽出処理１１１０ｍ’’、文字列抽出処理１１１０ｎ’’によって関連詞が抽出され、抽出された関連詞がそれぞれ、関連詞辞書Ａ’’、関連詞辞書Ｂ’’、関連詞辞書Ｃ’’に記憶される。この実施例では、テキストデータＡ’’は、テキストデータＡ、テキストデータＡ’と同じＷＥＢページ、または同じ主題のＷＥＢページを想定している。同様に、テキストデータＢ’’は、テキストデータＢ、テキストデータＢ’と同じＷＥＢページ、または同じ主題のＷＥＢページであり、テキストデータＣ’’は、テキストデータＣ、テキストデータＣ’と同じＷＥＢページ、または同じ主題のＷＥＢページである。

その後、辞書比較処理１１２０ｋ’’によって３つの関連詞辞書（関連詞辞書Ａ’’、関連詞辞書Ｂ’’、関連詞辞書Ｃ’’）の比較が行われ、関連詞の出現状況に応じて、関連詞等が比較結果データ１１２５に記憶される。この実施例では、例えば、３つの関連詞辞書に共通して存在する関連詞が比較結果データ１１２５に記憶される。

なお、図１７の実施例では、同じタイミングで、異なるＷＥＢページ（異なる主題に関するＷＥＢページ）から収集された３つのテキストデータに基づいて関連詞の抽出を行ったが、２つのテキストデータからそれぞれ関連詞の抽出を行ってもよいし、４つ以上のテキストデータからそれぞれ関連詞の抽出を行ってもよい。

＜＜本発明の一実施形態に係る情報更新装置の文字列抽出処理と辞書比較処理の詳細な説明＞＞
次に、図１８を参照して、図１６に示した文字列抽出処理１１１０と辞書比較処理１１２０の例をより詳細に説明する。図１８は、３つのテキストデータ（テキストデータ１〜３）に対してそれぞれ文字列抽出処理（１１１０ｆ、１１１０ｇ、１１１０ｈ）が行われ、対応する関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、関連詞辞書（ｉ＋１）に対して、辞書比較処理１１２０ｆが行われるところを示している。

この実施例では、３つのテキストデータは、共通の主題「株の取引」に関連する同じＷＥＢページから収集されたものである。例えば、ＷＥＢ検索により、検索キーワード「株の取引」を入力し、その結果得られた３つのＷＥＢページを１つのテキストデータとして扱う。図１８では、テキストデータ１は、時間（Ｔ＝ｔ１）における、第１のＷＥＢページから得られたテキストデータ１−１、第２のＷＥＢページから得られたテキストデータ１−２、第３のＷＥＢページから得られたテキストデータ１−３を含む。同様に、テキストデータ２は、時間（Ｔ＝ｔ２）における、第１のＷＥＢページから得られたテキストデータ２−１、第２のＷＥＢページから得られたテキストデータ２−２、第３のＷＥＢページから得られたテキストデータ２−３を含み、テキストデータ３は、時間（Ｔ＝ｔ３）における、第１のＷＥＢページから得られたテキストデータ３−１、第２のＷＥＢページから得られたテキストデータ３−２、第３のＷＥＢページから得られたテキストデータ３−３を含む。ここで、第１のＷＥＢページのＵＲＬはすべて同じであり、第２のＷＥＢページのＵＲＬはすべて同じであり、第３のＷＥＢページのＵＲＬはすべて同じである。

文字列抽出処理１１１０ｆは、時間（Ｔ＝ｔ１）において、テキストデータ１から所定の方法により関連詞を抽出し、関連詞辞書（ｉ−１）に記憶する。この実施例では、関連詞が４つ抽出され、それぞれをランクの順に配列して、１レコードとし関連詞辞書（ｉ−１）に格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「○社」、「△銀行」、「申込みは」、「口座」である。形態素解析等では、意味を持つ最小の単位（形態素）に分解して文字列を把握するが、他の方法では、形態素より大きな単位（例えば、文や文の一部）が関連詞として抽出されうる。上述の「申込みは」といった、名詞と助詞からなる文字列も関連詞として抽出されている。

また、この実施例では、それぞれのテキストデータに関して４つの関連詞が抽出されるようになっているが、これは説明の便宜のためのものである（以降の実施例も同様である）。実際には、関連詞がいくつ抽出されてもよく、テキストデータによってその数が異なる。文字列抽出処理において、一定の判定基準において閾値を超えた場合に文字列が関連詞として決定される場合は、その判定に応じて抽出される関連詞の数が変わってくる。また、抽出する関連詞の数を固定数とすることもできるし、テキストデータの文字数等に応じて設定するようにもできる。

文字列抽出処理１１１０ｇは、時間（Ｔ＝ｔ２）において、テキストデータ２から所定の方法により関連詞を抽出し、関連詞辞書（ｉ）に記憶する。この実施例では、関連詞が４つ抽出され、それぞれをランクの順に配列して、１レコードとし関連詞辞書（ｉ）に格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「税率」、「○社」、「△銀行」、「申込みは」である。

同様に、文字列抽出処理１１１０ｈは、時間（Ｔ＝ｔ３）において、テキストデータ３から所定の方法により関連詞を抽出し、関連詞辞書（ｉ＋１）に記憶する。この実施例では、関連詞が４つ抽出され、それぞれをランクの順に配列して、１レコードとし関連詞辞書（ｉ＋１）に格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「○社」、「口座」、「△銀行」、「申込みは」である。

次に、関連詞辞書（ｉ−１）、関連詞辞書（ｉ）、関連詞辞書（ｉ＋１）に対して、辞書比較処理１１２０ｆが行われる。この実施例では、辞書比較処理１１２０ｆは、新たに出現した関連詞（新着関連詞）、消滅した関連詞（消滅関連詞）、及び再度出現した関連詞（復活関連詞）を検出し、これらを比較結果データ１１２５に記憶するものとする。

例えば、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）を比較すると、関連詞辞書（ｉ）で、関連詞「税率」が新たに出現しており、さらに、関連詞「口座」が消滅している。そこで、比較結果データ１１２５には、図１９のレコード１１２５ａに示すように、関連詞「税率」「口座」が記憶される。また、比較結果データ１１２５には、これらの関連詞とともに、出現状況を表すデータ（この実施例では、新たに出現した関連詞の場合「新着」、消滅した関連詞の場合「消滅」）が同じレコードに記憶される。さらに、この実施例では、当該出現状況となったタイミングを示すために、関連詞辞書を識別する「話題名」のデータが記憶される。各関連詞辞書は、話題名や日付けと対応付けられ、関連詞辞書（ｉ）は、ここでは「２０１３年１０月１０日、ｔ２における「株の取引」の話題」といった話題名に対応付けられている。

次に、関連詞辞書（ｉ）と関連詞辞書（ｉ＋１）を比較すると、関連詞辞書（ｉ＋１）で、関連詞「税率」が消滅しており、さらに、関連詞「口座」が復活している（関連詞辞書（ｉ−１）に存在し、関連詞辞書（ｉ）で消滅していた）。そこで、比較結果データ１１２５には、図１９のレコード１１２５ｂに示すように、関連詞「口座」「税率」が記憶される。また、比較結果データ１１２５には、これらの関連詞とともに、出現状況を表すデータ（この実施例では、再度出現した（復活した）関連詞の場合「復活」、消滅した関連詞の場合「消滅」）が同じレコードに記憶される。さらに、この実施例では、当該出現状況となったタイミングを示すために、関連詞辞書を識別する「話題名」のデータが記憶される。各関連詞辞書は、話題名や日付けと対応付けられ、関連詞辞書（ｉ＋１）は、ここでは「２０１３年１０月１０日、ｔ３における「株の取引」の話題」といった話題名に対応付けられている。

次に、図２０を参照して、図１７に示した文字列抽出処理１１１０と辞書比較処理１１２０の例をより詳細に説明する。図２０は、時間（Ｔ＝ｔ１）において、３つのテキストデータ（テキストデータＡ〜Ｃ）に対してそれぞれ文字列抽出処理（１１１０ｋ、１１１０ｍ、１１１０ｎ）が行われ、対応する関連詞辞書Ａ、関連詞辞書Ｂ、関連詞辞書Ｃに対して、辞書比較処理１１２０ｋが行われるところを示している。

この実施例では、３つのテキストデータは、同じ時間（Ｔ＝ｔ１）において、異なる主題に関連するＷＥＢページから収集されたものである。すなわち、テキストデータＡは、「Ａ社の技術」を主題としたＷＥＢページに基づくものであり、テキストデータＢは、「Ｂ社の技術」を主題としたＷＥＢページに基づくものであり、テキストデータＣは、「ＡＩ（人工知能）関連技術」を主題としたＷＥＢページに基づくものである。

例えば、テキストデータＡに関しては、ＷＥＢ検索により、検索キーワード「Ａ社の技術」を入力し、その結果得られた３つのＷＥＢページを１つのテキストデータとして扱う。同様に、テキストデータＢに関しては、ＷＥＢ検索により、検索キーワード「Ｂ社の技術」を入力し、その結果得られた３つのＷＥＢページを１つのテキストデータとして扱い、テキストデータＣに関しては、ＷＥＢ検索により、検索キーワード「ＡＩ（人工知能）関連技術」を入力し、その結果得られた３つのＷＥＢページを１つのテキストデータとして扱う。

図２０では、テキストデータ１は、主題「Ａ社の技術」に関連した、第１のＷＥＢページから得られたテキストデータＡ−１、第２のＷＥＢページから得られたテキストデータＡ−２、第３のＷＥＢページから得られたテキストデータＡ−３を含む。同様に、テキストデータ２は、主題「Ｂ社の技術」に関連した、第１のＷＥＢページから得られたテキストデータＢ−１、第２のＷＥＢページから得られたテキストデータＢ−２、第３のＷＥＢページから得られたテキストデータＢ−３を含み、テキストデータ３は、主題「ＡＩ（人工知能）関連技術」に関連した、第１のＷＥＢページから得られたテキストデータＣ−１、第２のＷＥＢページから得られたテキストデータＣ−２、第３のＷＥＢページから得られたテキストデータＣ−３を含む。

文字列抽出処理１１１０ｋは、テキストデータＡから所定の方法により関連詞を抽出し、関連詞辞書Ａに記憶する。この実施例では、関連詞が４つ抽出され、それぞれをランクの順に配列して、１レコードとし関連詞辞書Ａに格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「Ａ社」、「音声」、「音声認識」、「営業」となっている。

文字列抽出処理１１１０ｍは、テキストデータＢから所定の方法により関連詞を抽出し、関連詞辞書Ｂに記憶する。この実施例では、関連詞が４つ抽出され、それぞれをランクの順に配列して、１レコードとし関連詞辞書Ｂに格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「音声」、「研究開発」、「Ｂ社の業績」、「音声認識」となっている。

同様に、文字列抽出処理１１１０ｎは、テキストデータＣから所定の方法により関連詞を抽出し、関連詞辞書Ｃに記憶する。この実施例では、関連詞が４つ抽出され、それぞれをランクの順に配列して、１レコードとし関連詞辞書Ｃに格納する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「ＡＩ」、「ロボット」、「音声認識」、「エージェント」となっている。

次に、関連詞辞書Ａ、関連詞辞書Ｂ、関連詞辞書Ｃに対して、辞書比較処理１１２０ｋが行われる。この実施例では、辞書比較処理１１２０ｋは、３つの辞書に共通する関連詞（共通関連詞）を検出し、これらを比較結果データ１１２５に記憶するものとする。

関連詞辞書Ａ、関連詞辞書Ｂ、関連詞辞書Ｃを比較すると、それぞれ上述した関連詞を記憶しており、共通関連詞として「音声認識」が存在することが認められる。そこで、この「音声認識」を比較結果データ１１２５に記憶する。

このような共通関連詞を把握することにより、企業間関連情報の分析を効果的に実現することができる。例えば、Ａ社の技術に関する記述で多く用いられている関連詞をテキストデータＡに基づく文字列抽出処理１１１０ｋにより抽出し、Ｂ社の技術に関する記述で多く用いられている関連詞をテキストデータＢに基づく文字列抽出処理１１１０ｍにより抽出し、ＡＩ（人工知能）関連技術に関する記述で多く用いられている関連詞をテキストデータＣに基づく文字列抽出処理１１１０ｎにより抽出することによって、Ａ社とＢ社とが、どのようなＡＩ関連技術で共通性を有している可能性があるかを、客観的に把握することができる。

なお、図２０に示す実施例では、同じ時間（Ｔ＝ｔ１）において、異なる主題に関連するＷＥＢページから収集されたテキストデータに基づく関連詞辞書を比較するものであり、ＷＥＢページは、それぞれは意図的なＷＥＢ検索により収集されたものであるが、まったく偶然に集められたＷＥＢページからそれぞれ得られた関連詞辞書を比較した結果、偶然にも共通の関連詞が見いだされるといったケースも考えられる。

次に、図２１を参照して、本発明の一実施形態に係る情報更新装置における文字列抽出処理１１１０と辞書比較処理１１２０の他の実施例を説明する。図２１は、図１８に示した文字列抽出処理１１１０と辞書比較処理１１２０の変形例を示すものである。図２１には、２つのテキストデータ（テキストデータ１、テキストデータ２）に対してそれぞれ文字列抽出処理１１１０が行われ、対応する関連詞辞書（ｉ−１）、関連詞辞書（ｉ）に対して、辞書比較処理１１２０が行われるところを示している。図１８に示す、テキストデータ３に関する処理については表示を省略した。

この実施例では、２つのテキストデータは、共通の主題「株の取引」に関連する同じＷＥＢページから収集されたものである。例えば、ＷＥＢ検索により、検索キーワード「株の取引」を入力し、その結果得られた３つのＷＥＢページを１つのテキストデータとするが、関連詞は、ＷＥＢページの単位ごとに抽出する。これによって、関連詞が、ＷＥＢページごとに管理されるが、３つのＷＥＢページに基づくテキストデータを３つ用意し、そのテキストデータごとに関連詞が抽出されるようにしてもよい。ここでは、関連詞が、複数のテキストデータから抽出されていることが重要である。

図２１では、テキストデータ１は、時間（Ｔ＝ｔ１）における、第１のＷＥＢページから得られたテキストデータ１−１、第２のＷＥＢページから得られたテキストデータ１−２、第３のＷＥＢページから得られたテキストデータ１−３を含む。同様に、テキストデータ２は、時間（Ｔ＝ｔ２）における、第１のＷＥＢページから得られたテキストデータ２−１、第２のＷＥＢページから得られたテキストデータ２−２、第３のＷＥＢページから得られたテキストデータ２−３を含む。ここで、第１のＷＥＢページのＵＲＬはすべて同じであり、第２のＷＥＢページのＵＲＬはすべて同じであり、第３のＷＥＢページのＵＲＬはすべて同じである。

文字列抽出処理１１１０は、時間（Ｔ＝ｔ１）において、テキストデータ１から所定の方法により関連詞を抽出する。これは、上述のように、テキストデータ１に含まれるテキストデータごとに行われ、例えば、テキストデータ１−１から所定の方法により関連詞が抽出され、テキストデータ１−２から所定の方法により関連詞が抽出され、テキストデータ１−３から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が４つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータ１−１に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「○社」、「口座」、「申込手続」、「△銀行」である。テキストデータ１−２に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「口座」、「△銀行」、「申込みは」、「◇社」である。テキストデータ１−３に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「株の購入」、「△銀行」、「指し値」、「○社」である。

次に、文字列抽出処理１１１０は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書（ｉ−１）に記憶する。近傍関連詞は、ある関連詞に着目した場合に、その関連詞とともに出現する（共起する）関連詞である。各テキストデータ（１−１、１−２、１−３）において、そのテキストデータに対応する話題に含まれている関連詞の集合は関連詞集合であり、ある関連詞に着目した場合、その関連詞を含む関連詞集合を、関連詞の近傍と称し、関連詞の近傍の集合を、関連詞の近傍系と称する。関連詞辞書（ｉ−１）には、関連詞ごとに、関連詞の近傍系が記憶される。

例えば、関連詞「○社」に着目すると、この関連詞は、テキストデータ１−１について抽出されており、関連詞の近傍は｛○社、口座、申請手続、△銀行｝である。同様に、この関連詞は、テキストデータ１−３について抽出されており、関連詞の近傍は｛株の購入、△銀行、指し値、○社｝である。これらから、関連詞「○社」について、関連詞の近傍系は、｛○社、口座、株の購入、△銀行、申請手続、指し値｝となる（テキストデータ１−１についての関連詞の近傍と、テキストデータ１−３についての関連詞の近傍とで重複する関連詞「△銀行」は１つだけ含められる）。

こうして求められた関連詞の近傍系が、それぞれの関連詞「○社」、「口座」、「△銀行」、「申請手続」、「株の購入」、「申込みは」、「指し値」、「◇社」について、関連詞辞書（ｉ−１）に記憶される。各関連詞については、関連詞の近傍系（近傍関連詞１〜７）が記憶されるが、これらの順序は、文字列抽出処理１１１０により行われたランク付けや、共起性の高さ等を考慮して定められる。

さらに、文字列抽出処理１１１０は同様に、時間（Ｔ＝ｔ２）において、テキストデータ２から所定の方法により関連詞を抽出する。これは、上述のように、テキストデータ２に含まれるテキストデータごとに行われ、例えば、テキストデータ２−１から所定の方法により関連詞が抽出され、テキストデータ２−２から所定の方法により関連詞が抽出され、テキストデータ２−３から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が４つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータ２−１に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「○社」、「口座」、「新しい制度」、「申請手続」である。テキストデータ２−２に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「口座」、「△銀行」、「◇社」、「株の購入」である。テキストデータ２−３に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「株の購入」、「△銀行」、「○社」、「新しい制度」である。

次に、文字列抽出処理１１１０は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書（ｉ）に記憶する。例えば、関連詞「○社」に着目すると、この関連詞は、テキストデータ２−１について抽出されており、関連詞の近傍は｛○社、口座、新しい制度、申請手続｝である。同様に、この関連詞は、テキストデータ２−３について抽出されており、関連詞の近傍は｛株の購入、△銀行、○社、新しい制度｝である。これらから、関連詞「○社」について、関連詞の近傍系は、｛○社、口座、株の購入、新しい制度、申請手続、△銀行｝となる（テキストデータ２−１についての関連詞の近傍と、テキストデータ２−３についての関連詞の近傍とで重複する関連詞「新しい制度」は１つだけ含められる）。

こうして求められた関連詞の近傍系が、それぞれの関連詞「○社」、「口座」、「△銀行」、「申請手続」、「株の購入」、「新しい制度」、「◇社」について、関連詞辞書（ｉ）に記憶される。各関連詞については、関連詞の近傍系（近傍関連詞１〜６）が記憶されるが、これらの順序は、文字列抽出処理１１１０により行われたランク付けや、共起性の高さ等を考慮して定められる。

次に、辞書比較処理１１２０により、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）が比較される。その結果、関連詞「指し値」、「申込みは」は、時間（Ｔ＝ｔ２）で消滅した消滅関連詞であり（図２１の符号１１３３参照）、関連詞「新しい制度」は、時間（Ｔ＝ｔ２）で新たに出現する新着関連詞であり（図２１の符号１１３２参照）、これらの関連詞は、関連詞辞書（ｉ−１）と関連詞辞書（ｉ）の変化分として比較結果データ１１２５に記憶される。

さらに、辞書比較処理１１２０は、関連詞「○社」、「口座」、「△銀行」、「申請手続」、「株の購入」、「◇社」については、時間（Ｔ＝ｔ１）及び時間（Ｔ＝ｔ２）の両方で存在する関連詞であるが、各関連詞の近傍関連詞についても比較を行う。そうすると、近傍関連詞（または近傍関連詞の順序）が変化していることが分かる（図２１の符号１１３１参照）。このことは、話題における当該関連詞の関係性や位置づけが変化していることを示している。情報更新装置が適用される応答システム等が、こうした近傍関連詞の変化についても可視化しようとする場合は、これらの情報についても比較結果データ１１２５に記憶する。

次に、図２２を参照して、本発明の一実施形態に係る情報更新装置における文字列抽出処理１１１０と辞書比較処理１１２０の他の実施例を説明する。図２２は、図２０に示した文字列抽出処理１１１０と辞書比較処理１１２０の変形例を示すものである。図２２には、３つのテキストデータ（テキストデータＡ〜Ｃ）に対してそれぞれ文字列抽出処理１１１０が行われ、対応する関連詞辞書Ａ、関連詞辞書Ｂ、関連詞辞書Ｃに対して、辞書比較処理１１２０が行われるところを示している。

この実施例では、３つのテキストデータは、同じ時間（Ｔ＝ｔ１）において、異なる主題に関連する同じＷＥＢページから収集されたものである。すなわち、テキストデータＡは、「Ａ社の技術」を主題としたＷＥＢページに基づくものであり、テキストデータＢは、「Ｂ社の技術」を主題としたＷＥＢページに基づくものであり、テキストデータＣは、「ＡＩ（人工知能）関連技術」を主題としたＷＥＢページに基づくものである。

例えば、テキストデータＡに関しては、ＷＥＢ検索により、検索キーワード「Ａ社の技術」を入力し、その結果得られた２つのＷＥＢページから２つのテキストデータ（テキストデータＡ−１、テキストデータＡ−２）を取得し、これらを文字列抽出処理１１１０においては個別に扱う。同様に、テキストデータＢに関しては、ＷＥＢ検索により、検索キーワード「Ｂ社の技術」を入力し、その結果得られた２つのＷＥＢページから２つのテキストデータ（テキストデータＢ−１、テキストデータＢ−２）を取得し、これらを文字列抽出処理１１１０においては個別に扱う。同様に、テキストデータＣに関しては、ＷＥＢ検索により、検索キーワード「ＡＩ（人工知能）関連技術」を入力し、その結果得られた２つのＷＥＢページから２つのテキストデータ（テキストデータＣ−１、テキストデータＣ−２）を取得し、これらを文字列抽出処理１１１０においては個別に扱う。図２０では、テキストデータＡ、テキストデータＢ、テキストデータＣにそれぞれ３つのテキストデータが含まれていたが、この実施例では、それぞれ２つのテキストデータを含むものとする。

文字列抽出処理１１１０は、時間（Ｔ＝ｔ１）において、テキストデータＡから所定の方法により関連詞を抽出する。これは、上述のように、テキストデータＡに含まれるテキストデータごとに行われ、例えば、テキストデータＡ−１から所定の方法により関連詞が抽出され、テキストデータＡ−２から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が４つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータＡ−１に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「Ａ社」、「音声」、「音声認識」、「ロボット」である。テキストデータＡ−２に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「圧縮技術」、「音声認識」、「営業」、「音声」である。

次に、文字列抽出処理１１１０は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書Ａに記憶する。近傍関連詞は、ある関連詞に着目した場合に、その関連詞とともに出現する（共起する）関連詞である。各テキストデータ（Ａ−１、Ａ−２）において、そのテキストデータに対応する話題に含まれている関連詞の集合は関連詞集合であり、ある関連詞に着目した場合、その関連詞を含む関連詞集合を、関連詞の近傍と称し、関連詞の近傍の集合を、関連詞の近傍系と称する。関連詞辞書Ａには、関連詞ごとに、関連詞の近傍系が記憶される。

例えば、関連詞「音声認識」に着目すると、この関連詞は、テキストデータＡ−１について抽出されており、関連詞の近傍は｛Ａ社、音声、音声認識、ロボット｝である。同様に、この関連詞は、テキストデータＡ−２について抽出されており、関連詞の近傍は｛圧縮技術、音声認識、営業、音声｝である。これらから、関連詞「音声認識」について、関連詞の近傍系は、｛音声認識、Ａ社、圧縮技術、音声、ロボット、営業｝となる（テキストデータＡ−１についての関連詞の近傍と、テキストデータＡ−２についての関連詞の近傍とで重複する関連詞「音声」は１つだけ含められる）。

こうして求められた関連詞の近傍系が、それぞれの関連詞「Ａ社」、「音声認識」、「音声」、「圧縮技術」、「営業」、「ロボット」について、関連詞辞書Ａに記憶される。各関連詞については、関連詞の近傍系（近傍関連詞１〜５）が記憶されるが、これらの順序は、文字列抽出処理１１１０により行われたランク付けや、共起性の高さ等を考慮して定められる。

さらに、文字列抽出処理１１１０は、時間（Ｔ＝ｔ１）において、テキストデータＢから所定の方法により関連詞を抽出する。これは、上述のように、テキストデータＢに含まれるテキストデータごとに行われ、例えば、テキストデータＢ−１から所定の方法により関連詞が抽出され、テキストデータＢ−２から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が４つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータＢ−１に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「音声」、「Ｂ社の業績」、「音声認識」、「研究開発」である。テキストデータＢ−２に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「研究開発」、「音声」、「音声認識」、「認証技術」である。

次に、文字列抽出処理１１１０は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書Ｂに記憶する。例えば、関連詞「音声」に着目すると、この関連詞は、テキストデータＢ−１について抽出されており、関連詞の近傍は｛音声、Ｂ社の業績、音声認識、研究開発｝である。同様に、この関連詞は、テキストデータＢ−２について抽出されており、関連詞の近傍は｛研究開発、音声、音声認識、認証技術｝である。これらから、関連詞「音声」について、関連詞の近傍系は、｛音声、研究開発、Ｂ社の業績、音声認識、認証技術｝となる（テキストデータＢ−１についての関連詞の近傍と、テキストデータＢ−２についての関連詞の近傍とで重複する関連詞「音声認識」、「研究開発」はそれぞれ１つだけ含められる）。

こうして求められた関連詞の近傍系が、それぞれの関連詞「音声」、「研究開発」、「Ｂ社の業績」、「音声認識」、「認証技術」について、関連詞辞書Ｂに記憶される。各関連詞については、関連詞の近傍系（近傍関連詞１〜４）が記憶されるが、これらの順序は、文字列抽出処理１１１０により行われたランク付けや、共起性の高さ等を考慮して定められる。

さらに、文字列抽出処理１１１０は、時間（Ｔ＝ｔ１）において、テキストデータＣから所定の方法により関連詞を抽出する。これは、上述のように、テキストデータＣに含まれるテキストデータごとに行われ、例えば、テキストデータＣ−１から所定の方法により関連詞が抽出され、テキストデータＣ−２から所定の方法により関連詞が抽出される。この実施例では、それぞれについて関連詞が４つ抽出され、各関連詞をランクの順に配列する。関連詞のランク付けは、例えば、出現頻度等に基づいて決定することができる。テキストデータＣ−１に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「ＡＩ」、「エージェント」、「ロボット」、「音声認識」である。テキストデータＣ−２に関し、抽出された４つの関連詞（関連詞１〜関連詞４）は、ランク順に「ロボット」、「音声認識」、「ＡＩ」、「学習機能」である。

次に、文字列抽出処理１１１０は、このように抽出された関連詞のそれぞれについて、近傍関連詞を求め、それらを関連詞辞書Ｃに記憶する。例えば、関連詞「ＡＩ」に着目すると、この関連詞は、テキストデータＣ−１について抽出されており、関連詞の近傍は｛ＡＩ、エージェント、ロボット、音声認識｝である。同様に、この関連詞は、テキストデータＣ−２について抽出されており、関連詞の近傍は｛ロボット、音声認識、ＡＩ、学習機能｝である。これらから、関連詞「ＡＩ」について、関連詞の近傍系は、｛ＡＩ、ロボット、エージェント、音声認識、学習機能｝となる（テキストデータＣ−１についての関連詞の近傍と、テキストデータＣ−２についての関連詞の近傍とで重複する関連詞「ロボット」、「音声認識」はそれぞれ１つだけ含められる）。

こうして求められた関連詞の近傍系が、それぞれの関連詞「ＡＩ」、「ロボット」、「音声認識」、「エージェント」、「学習機能」について、関連詞辞書Ｃに記憶される。各関連詞については、関連詞の近傍系（近傍関連詞１〜４）が記憶されるが、これらの順序は、文字列抽出処理１１１０により行われたランク付けや、共起性の高さ等を考慮して定められる。

次に、辞書比較処理１１２０により、関連詞辞書Ａ〜Ｃが比較される。その結果、関連詞「音声認識」は、時間（Ｔ＝ｔ１）において、３つの関連詞辞書に共通する関連詞（共通関連詞）であり（図２２の符号１１３５、１１３５’、１１３５’’参照）、これが比較結果データ１１２５に記憶される。このような共通関連詞を把握することにより、異なる主題のなかから共通する話題を発見することができ、この実施例のような主題の設定を行えば、企業間関連情報の分析にもつながる。

また、辞書比較処理１１２０は、この共通関連詞について、各関連詞の近傍関連詞についても比較を行う。そうすると、近傍関連詞の共通性や近傍関連詞の順序の共通性等を把握することができ、これによって、共通関連詞の間の共通性のレベルを判定することができる。

なお、関連詞辞書Ａと関連詞辞書Ｂにおける共通関連詞として「音声」が把握されうるが（図２２の符号１１３６、１１３６’参照）、このような一部の関連詞辞書における共通関連詞も重要な情報となる場合があるため、比較結果データ１１２５に記憶することができる。

＜＜＜本発明の一実施形態に係る情報更新装置を含む情報更新システムの概要＞＞＞
次に、図２３を参照して、本発明の一実施形態に係る情報更新装置を含む情報更新システムによる一連の処理の例を説明する。

図２３に示す情報更新システム１３００は、情報更新装置１４００、検索処理装置１６００、ユーザ端末１７００を含む。情報更新装置１４００は、記憶手段に、関連詞辞書１１１５と比較結果データ１１２５を格納する。検索処理装置１６００で動作するクローラー１６０１は、例えば、自動起動され、決められた時間に決められた話題名に対して話題解析を行う（検索を行って、定期的に話題を収集する）。話題名は、例えば、関連詞辞書１１１５を保持しているサービス（利用者が扱う話題にそれぞれ対応したサービスＩＤに割り当てられた領域）に記憶され、利用者が１０個の話題を扱いたい場合は、１０個のサービスを利用してそれらの話題を扱うことになる。また、上述した１つ１つのサービスについて、対応する話題チップを設定し、各話題チップが常時、対応する話題に関する情報を収集し、利用者の入力に応じて、関連する話題チップを連携・統合させ、より多様な話題提供サービスを実現することもできる。

クローラー１６０１による検索は、例えば、インターネット上の既存のインターネット検索サイトにアクセスし、そこで検索キーワードを指定することにより、当該インターネット検索サイトの検索サーバ１６１０から検索結果１６２０を受信する。検索結果１６２０には、例えば、検索キーワードに合致または類似するコンテンツを含んだＷＥＢページのアドレス（ＷＥＢページ１のアドレス、ＷＥＢページ２のアドレス、ＷＥＢページ３のアドレス、・・・、ＷＥＢページＸのアドレス）が含まれる。

クローラー１６０１は、この実施例では、既存のインターネット検索サイトにおける検索を実行することで検索結果１６２０を取得するようにしているが、他の様々な方法により、所定の条件を満たすＷＥＢページのアドレスを取得することができる。また、検索対象はインターネット上のＷＥＢページに限定されるものではなく、TWITTERのツイート情報や、任意の機関によって事前に生成・編集された（ネットワーク上またはローカルの）データやデータベース内のテキスト情報であってもよい。

既存のインターネット検索サイトは、検索サーバ１６１０に備えられた検索エンジンにより、インターネット上のデータソースから検索キーワードに合致、または類似するＷＥＢページのアドレスを、検索のリクエストに応じて（あるいは事前の定期的収集活動により）収集する。

クローラー１６０１は、検索サーバ１６１０から検索結果１６２０が送信されると、クローラー１６０１、または検索処理装置１６００で動作するアプリケーション等が、検索結果１６２０を、（例えば、ＡＰＩ送信により）情報更新装置１４００に送信する。また、クローラー１６０１は、フィルタを用いて、検索結果１６２０のうち、所定の条件を満たすものを除外するよう構成することができる。

この実施例では、クローラー１６０１が、決められた時間に自動的に起動されるが、情報更新装置１４００の動作制御に応じて検索結果１６２０を取得するようにしてもよい。また、クローラー１６０１が所定のインターバルで検索結果１６２０を取得し、その検索結果１６２０を検索処理装置１６００の記憶手段に保持し、情報更新装置１４００が、必要なタイミングで、検索処理装置１６００の記憶手段にアクセスして検索結果１６２０を取得するようにもできる。また、情報更新装置１４００と検索処理装置１６００を１つのサーバにより構成することもできる。

また、この実施例では、検索処理装置１６００が、検索結果１６２０として検索キーワードに関連するＷＥＢページのアドレスを情報更新装置１４００に送信するが、検索処理装置１６００において、これらのＷＥＢページにアクセスし、その結果得られたテキストデータを検索結果１６２０として情報更新装置１４００に送信するようにもできる。

情報更新装置１４００は、検索結果１６２０を受信すると、検索結果１６２０に含まれるＷＥＢページのアドレスにアクセスして、それぞれのＷＥＢページ（ＷＥＢページ１、ＷＥＢページ２、ＷＥＢページ３、・・・、ＷＥＢページＸ）からテキストデータ１２００を取得する。検索結果１６２０は、検索条件を満たすＷＥＢページのアドレスが複数含まれうるが、これらが検索条件の満足度に応じてランク付けされているような場合は、所定ランク以上のＷＥＢページについてテキストデータ１２００を取得するようにもできる。

情報更新装置１４００は、テキストデータ１２００を取得すると、テキストデータ１２００から文字列抽出処理１１１０により、関連詞を抽出し、これらを、対応する関連詞辞書１１１５に記憶する。その後、情報更新装置１４００は、２つ以上の関連詞辞書１１１５に対して、辞書比較処理１１２０を行い、比較結果を比較結果データ１１２５に記憶する。辞書比較処理１１２０は、例えば、比較対象の関連詞辞書１１１５に関連詞の記憶がすべて終了した時点で自動的に開始される。

ユーザ端末１７００は、情報更新システム１３００のユーザが使用するコンピュータであり、ここで、ユーザの入力に対して自動的に応答を行う応答システムが、ユーザ端末１７００で動作するアプリケーション１７０１と情報更新装置１４００との間で構築される。

このようなユーザ端末１７００から、ユーザが直接、あるいは、アプリケーション１７０１によって選択された応答シナリオに応じて、所定の関連詞辞書を比較した比較結果の表示が要求されると、ユーザ端末１７００から情報更新装置１４００に対して比較結果表示リクエストが送信される。情報更新装置１４００が、この比較結果表示リクエストを受信すると、これに応じて、対応する比較結果データを比較結果データ１１２５から取得し、ユーザ端末１７００に送信する。

ユーザ端末１７００は、情報更新装置１４００から送信された比較結果データ１１２５を受信し、ユーザ端末１７００のディスプレイ１７０２に表示させるように編集し（例えば、表示結果を表示するように構成されたＨＴＭＬファイルを編集し）、比較結果表示データ１１５０を生成する。なお、比較結果表示データ１１５０を情報更新装置１４００で生成し、これをユーザ端末１７００で受信し表示させるように構成することもできる。

その後、ユーザ端末１７００では、比較結果表示データ１１５０を受信したアプリケーション１７０１またはＷＥＢブラウザ等が、比較結果表示データ１１５０を解釈し、ディスプレイ１７０２に、比較結果表示リクエストにより要求された比較結果を表示する。この表示は、例えば、話題名と、この話題における関連詞の変化を示す。関連詞の変化の表示として、関連詞の出現状況とこれに対応する関連詞が表示される。

図２３の実施例においては、話題名「２０１３年１０月１０日、ｔ２における「株の取引」の話題」について、出現状況が「新着関連詞」である関連詞「税率」と、出現状況が「消滅関連詞」である関連詞「口座」が表示される。この表示は、図１９に示す比較結果データ１１２５の、レコード１１２５ａに対応するものである。ユーザは、ディスプレイ１７０２に表示された内容を見て、話題名に関する話題において、ｔ２というタイミングで、新たに「税率」という関連詞が出現し、これと同時に、「口座」という関連詞が消滅したという気づきを得ることができる。

＜＜＜本発明の一実施形態に係る情報更新装置の構成の説明＞＞＞
次に、図２４を参照して、本発明の一実施形態に係る情報更新装置１４００の構成を説明する。情報更新装置１４００は、テキストデータ取得処理部１４２１、文字列抽出処理部１４２２、辞書比較処理部１４２３、比較結果表示制御部１４２４、及びネットワークインタフェース（Ｉ／Ｆ）部１４２５を備える。

また、情報更新装置１４００は、ＲＡＭのような主記憶装置またはハードディスクや半導体メモリのような外部記憶装置に、関連詞辞書１１１５と比較結果データ１１２５を記憶する。関連詞辞書１１１５と比較結果データ１１２５は、様々なデータフォーマット、データ記憶形式をとることができる。

テキストデータ取得処理部１４２１は、図２３に示したクローラー１６０１によって取得されたインターネット検索サイトにおける検索結果１６２０を受信する。検索結果１６２０に含まれるＷＥＢページのアドレスからテキストデータ１２００を取得し、これを文字列抽出処理部１４２２に提供する（図１２に示すテキストデータ取得処理１１００）。文字列抽出処理部１４２２は、テキストデータ１２００から関連詞を抽出し、これを、対応する関連詞辞書１１１５に記憶する（図１２に示す文字列抽出処理１１１０）。辞書比較処理部１４２３は、複数の関連詞辞書１１１５を比較し、比較結果を比較結果データ１１２５に記憶する（図１２に示す辞書比較処理１１２０）。

比較結果表示制御部１４２４は、ユーザ端末１７００からの比較結果表示リクエストに応じて、比較結果データ１１２５から対応する比較結果を取得し、比較結果表示データ１１５０を生成してユーザ端末１７００に送信する。ネットワークインタフェース（Ｉ／Ｆ）部１４２５は、インターネット等のネットワークを介した、図２３に示す検索処理装置１６００やユーザ端末１７００を含む他のコンピュータとのアクセスと、これらのコンピュータとのデータ送受信を制御する。

＜＜＜本発明の一実施形態に係る情報更新装置のハードウェア構成の説明＞＞＞
次に、図２５を参照して、本発明の一実施形態に係る情報更新装置１４００として用いられるコンピュータのハードウェア構成の例について説明する。ただし、図２５に示す情報更新装置１４００は、その代表的な構成を例示したにすぎない。

情報更新装置１４００は、ＣＰＵ（Central Processing Unit）１４０１、ＲＡＭ（Random Access Memory）１４０２、ＲＯＭ（Read Only Memory）１４０３、ネットワークインタフェース１４０４、オーディオ制御部１４０５、マイクロフォン１４０６、スピーカ１４０７、ディスプレイコントローラ１４０８、ディスプレイ１４０９、入力機器インタフェース１４１０、キーボード１４１１、マウス１４１２、外部記憶装置１４１３、外部記録媒体インタフェース１４１４、及びこれらの構成要素を互いに接続するバス１４１５を含んでいる。

ＣＰＵ１４０１は、情報更新装置１４００の各構成要素の動作を制御し、ＯＳの制御下で、本発明に係るテキストデータ取得処理１１００、文字列抽出処理１１１０、辞書比較処理１１２０、比較結果表示制御等の実行を制御する。

ＲＡＭ１４０２には、ＣＰＵ１４０１で実行される辞書比較処理１１２０等を実行するためのプログラムや、それらのプログラムが実行中に使用するデータが一時的に格納される。また、上述のように、関連詞辞書１１１５や比較結果データ１１２５等も記憶されうる。ＲＯＭ１４０３には、情報更新装置１４００の起動時に実行されるプログラム等が格納される。

ネットワークインタフェース１４０４は、ネットワーク１５００に接続するためのインタフェースである。ネットワーク１５００は、例えば、図２３に示す検索処理装置１６００やユーザ端末１７００と情報更新装置１４００との間のネットワークや、インターネットのようなネットワークである。

オーディオ制御部１４０５は、マイクロフォン１４０６とスピーカ１４０７を制御して音声の入出力を制御する。ディスプレイコントローラ１４０８は、ＣＰＵ１４０１が発行する描画命令を実際に処理するための専用コントローラである。ディスプレイ１４０９は、例えば、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）で構成される表示装置である。

入力機器インタフェース１４１０は、キーボード１４１１やマウス１４１２から入力された信号を受信して、その信号パターンに応じて所定の指令をＣＰＵ１４０１に送信する。

外部記憶装置１４１３は、例えば、ハードディスクや半導体メモリのような記憶装置であり、この装置内には上述したプログラムやデータが記録され、実行時に、必要に応じてそこからＲＡＭ１４０２にロードされる。例えば、また、上述のように、関連詞辞書１１１５や比較結果データ１１２５等も記憶されうる。

外部記録媒体インタフェース１４１４は、外部記録媒体１５１０にアクセスして、そこに記録されているデータを読み取る。外部記録媒体１５１０は、例えば、可搬型のフラッシュメモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）などである。ＣＰＵ１４０１で実行され、本発明の各機能を実現するためのプログラムは、この外部記録媒体インタフェース１４１４を介して外部記録媒体１５１０から提供されうる。また、本発明の各機能を実現するためのプログラムの他の流通形態としては、ネットワーク上の所定のサーバから、ネットワーク１５００及びネットワークインタフェース１４０４を介して外部記憶装置１４１３やＲＡＭ１４０２に格納されるというルート等も考えられる。

本発明の一実施形態に係る情報更新装置のハードウェア構成について、一例を説明したが、図２３に示す検索処理装置１６００やユーザ端末１７００のハードウェア構成も基本的に、図２５に示す構成と同様である。ただし、ここで、情報更新装置１４００及び検索処理装置１６００に関しては、オーディオ制御部１４０５、マイクロフォン１４０６、スピーカ１４０７、ディスプレイコントローラ１４０８、ディスプレイ１４０９、入力機器インタフェース１４１０、キーボード１４１１、及びマウス１４１２は必須の構成要素ではない。また、ユーザ端末１７００に関しては、ディスプレイ１７０２はディスプレイ１４０９に相当するものであり、オーディオ制御部１４０５、マイクロフォン１４０６、及びスピーカ１４０７は必須の構成要素ではない。

ここまで、本発明の一実施形態に係る情報更新装置について、本発明を実施することができるいくつかの実施例を示しながら説明してきたが、これらの実施例は本発明を説明するための一例に過ぎず、本発明の権利範囲はこれらの実施例に限定されることはない。これらの実施例以外の様々な方法や構成によって、本発明の技術的思想を実現することができる。

１００テキストデータ取得処理
１１０文字列検索処理
１２０異なり度合い判定処理
１３０特定文字列決定処理
２００テキストデータ
４００文解析装置
４２１テキストデータ取得処理部
４２２文字列検索処理部
４２３異なり度合い判定処理部
４２４特定文字列決定処理部
１１００テキストデータ取得処理
１１１０文字列抽出処理
１１２０辞書比較処理
１２００テキストデータ
１３００情報更新システム
１４００情報更新装置
１４２１テキストデータ取得処理部
１４２２文字列抽出処理部
１４２３辞書比較処理部
１４２４比較結果表示制御部

Claims

テキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を、前記テキストデータに対応する辞書に記憶する文字列抽出手段と、
複数の前記辞書を比較する比較処理を行い、比較結果を比較結果記憶手段に記憶する辞書比較手段とを備え、
異なる前記辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータであり、
前記辞書比較手段は、複数の前記辞書のうち少なくとも１つが更新された場合に、前記比較処理を行い、前記比較結果記憶手段に記憶された比較結果を自動的に更新し、
前記文字列抽出手段は、前記テキストデータから複数の前記文字列を抽出した場合に、当該複数の前記文字列を関連付けて、対応する前記辞書に記憶し、
前記辞書比較手段は、
前記比較処理において、複数の前記辞書で共通する文字列がある場合に、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較することを特徴とする情報更新装置。
前記辞書比較手段は、
前記比較処理において、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較する場合に、前記関連付けられた他の文字列の共通性を判定し、当該共通性に関する情報を前記比較結果記憶手段に記憶することを特徴とする、請求項１に記載の情報更新装置。
前記文字列抽出手段は、
前記テキストデータから複数の文字列が抽出された場合に、所定の基準に従って各文字列をランク付けし、
前記辞書比較手段は、
前記比較処理において、前記関連付けられた他の文字列の共通性を、前記各文字列のランク付けに基づいて判定することを特徴とする、請求項２に記載の情報更新装置。
テキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を、前記テキストデータに対応する辞書に記憶する文字列抽出ステップと、
複数の前記辞書を比較する比較処理を行い、比較結果を比較結果記憶手段に記憶する辞書比較ステップとを備え、
異なる前記辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータであり、
前記辞書比較ステップは、複数の前記辞書のうち少なくとも１つが更新された場合に、前記比較処理を行い、前記比較結果記憶手段に記憶された比較結果を自動的に更新し、
前記文字列抽出ステップは、前記テキストデータから複数の前記文字列を抽出した場合に、当該複数の前記文字列を関連付けて、対応する前記辞書に記憶し、
前記辞書比較ステップは、
前記比較処理において、複数の前記辞書で共通する文字列がある場合に、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較することを特徴とする情報更新方法。
コンピュータに、
テキストデータから、意味識別可能な文字列を抽出し、抽出された文字列を、前記テキストデータに対応する辞書に記憶する文字列抽出手段、及び、
複数の前記辞書を比較する比較処理を行い、比較結果を比較結果記憶手段に記憶する辞書比較手段として機能させるプログラムであって、
異なる前記辞書に対応付けられたテキストデータは、異なる収集条件によって収集されたテキストデータであり、
前記辞書比較手段は、複数の前記辞書のうち少なくとも１つが更新された場合に、前記比較処理を行い、前記比較結果記憶手段に記憶された比較結果を自動的に更新し、
前記文字列抽出手段は、前記テキストデータから複数の前記文字列を抽出した場合に、当該複数の前記文字列を関連付けて、対応する前記辞書に記憶し、
前記辞書比較手段は、
前記比較処理において、複数の前記辞書で共通する文字列がある場合に、前記辞書の間で、前記共通する文字列のそれぞれに関連付けられた他の文字列を比較するプログラム。