JP2009271798A - Industry map generating system - Google Patents
Industry map generating system Download PDFInfo
- Publication number
- JP2009271798A JP2009271798A JP2008122784A JP2008122784A JP2009271798A JP 2009271798 A JP2009271798 A JP 2009271798A JP 2008122784 A JP2008122784 A JP 2008122784A JP 2008122784 A JP2008122784 A JP 2008122784A JP 2009271798 A JP2009271798 A JP 2009271798A
- Authority
- JP
- Japan
- Prior art keywords
- company
- keyword
- document data
- correlation
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 81
- 238000010586 diagram Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000002596 correlated effect Effects 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 241000282819 Giraffa Species 0.000 description 2
- 238000000855 fermentation Methods 0.000 description 2
- 230000004151 fermentation Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 101100410079 Dictyostelium discoideum psrA gene Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 239000002551 biofuel Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
この発明は業界マップ生成システムに係り、特に、新聞報道記事などの大量の文書データに基づいて、特定業界を構成する各企業と、企業相互間の関係を図示した業界マップを自動生成する技術に関する。 The present invention relates to an industry map generation system, and more particularly, to a technology for automatically generating an industry map illustrating the relationship between companies and companies constituting a specific industry based on a large amount of document data such as newspaper articles. .
IT業界やバイオ業界のように、特定の業界に属する企業への投資を希望する投資家や、特定の業界に関わる企業への就職を希望する学生にとって、当業界を構成している企業の顔ぶれや、相互間の関係を可視化した資料は極めて有効な判断材料となる。
このため、非特許文献1及び2に示すように、各種の業界マップが出版されている。また、非特許文献3に示すように、Webサイト上でも業界マップが公開されている。
For this reason, as shown in
これらの業界マップは、各業界を構成する企業の規模や上下関係、提携関係等をカラフルなイラストで表現しているため、投資家や学生等はこれらを閲覧することにより、特定の業界に関する全体的な知識を短期間の中に習得することが可能となる。 These industry maps express the scale, hierarchical relationships, and partnerships of the companies that make up each industry with colorful illustrations. Investors and students can view the overall information about a specific industry by browsing these illustrations. It is possible to acquire basic knowledge in a short period of time.
しかしながら、既存の業界マップはその優れた視認性を確保するため、とかく編集に時間と手間を要し、短いサイクルでのアップデートは困難であるため、内容が陳腐化し易いという問題があった。インターネットの普及に伴い、日々膨大な情報がネット上にアップされる今日、人間の判断と手作業に依存するこれまでの業界マップ以外に、業界の現状を簡易迅速に表現できる新しいタイプの業界マップに対する要望が存在していた。
また、従来の業界マップの場合、著者や編集者の個性や世界観に基づくバイアスがかかるため、内容に偏りが生じやすいという問題もあった。
However, in order to ensure the excellent visibility of the existing industry map, it takes time and effort to edit, and it is difficult to update in a short cycle, so that there is a problem that the contents are likely to become obsolete. With the spread of the Internet, a huge amount of information is uploaded on the Internet every day. In addition to the existing industry map that relies on human judgment and manual work, a new type of industry map that can express the current state of the industry simply and quickly. There was a request for.
In addition, in the case of the conventional industry map, there is a problem that bias tends to occur because the bias is based on the personality of the author and editor and the world view.
この発明は上記の現状を打開するために案出されたものであり、電子化された多数の文書データに基づいて、特定業界に係る企業や相互間の関係を可視化した業界マップを自動的に生成可能なシステムを実現することを目的としている。 The present invention has been devised to overcome the above-mentioned present situation, and based on a large number of digitized document data, an industry map that automatically visualizes the companies related to a specific industry and the relationship between them is automatically created. It aims to realize a system that can be generated.
上記の目的を達成するため、請求項1に記載した業界マップ生成システムは、一対の企業名と、両企業間の関係を表す相関キーワードを含む企業相関情報を複数格納しておく企業相関情報記憶手段と、複数の企業名が格納された企業名記憶手段と、複数の文書データから抽出したキーワードを格納しておくキーワード記憶手段と、各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、特定業界を示すキーワードが入力された場合に、上記関連度記憶手段を参照し、当該キーワードに対する関連度の高さに応じて複数のキーワードを連想キーワードとして抽出する手段と、上記企業名記憶手段を参照し、連想キーワードの中で企業名に該当するものを連想企業として抽出する手段と、各連想企業の存在を表すシンボルを、所定のマップ平面上に配置する手段と、上記企業相関情報記憶手段を参照し、上記連想企業を両方の相関企業とする企業相関情報を抽出する手段と、この企業相関情報に含まれる相関キーワードを、各連想企業に関連付けて上記マップ平面上に配置する手段と、上記企業相関情報記憶手段を参照し、上記連想企業を一方の相関企業とすると共に、連想企業以外の企業を他方の相関企業とし、かつ上記連想キーワードを相関キーワードとして含む企業相関情報を抽出する手段と、この企業相関情報の中で、連想企業以外の企業を周辺企業として抽出し、その存在を表すシンボルを上記マップ平面上に配置する手段と、この企業相関情報の相関キーワードの中で、上記連想キーワードに該当するものを、周辺企業と連想企業に関連付けて上記マップ平面上に配置する手段と、上記マップ平面を業界マップとして出力する手段を備えたことを特徴としている。
ここで「共起性」とは、同一文書中に登場する割合(程度)を意味している。
上記の「シンボル」としては、例えば企業名を表す文字列(略称、通称、イニシャルを含む)や、点や○、□などの図形と企業名を表す文字列との組合せが該当する。
また、上記の「出力」とは、例えばディスプレイに表示することや、プリンタを介してプリントアウトすること、あるいはサーバによって生成された画面をネットワーク経由でクライアント端末に送信することが該当する。
In order to achieve the above object, the industry map generation system according to
Here, “co-occurrence” means the ratio (degree) of appearance in the same document.
Examples of the “symbol” include a character string representing a company name (including abbreviations, common names, and initials), and a combination of a figure such as a dot, ○, □, and a character string representing a company name.
In addition, the above “output” corresponds to, for example, displaying on a display, printing out via a printer, or transmitting a screen generated by a server to a client terminal via a network.
請求項2に記載した業界マップ生成システムは、請求項1に記載のシステムであって、さらに上記業界マップが、上記マップ平面上において、企業相関情報に基づいて関連付けられた連想企業を表すシンボル間が線図で結ばれると共に、当該線図上に相関キーワードが配置され、企業相関情報に基づいて関連付けられた周辺企業と連想企業を表すシンボル間が線図で結ばれると共に、当該線図上に連想キーワードが配置されたものであることを特徴としている。
The industry map generation system according to
請求項3に記載した業界マップ生成システムは、請求項1または2に記載のシステムであって、さらに、上記文書データには所定の時間情報が関連付けられており、上記企業名記憶手段を参照し、文書中に複数の企業名が出現する文書データを上記文書記憶手段から抽出する手段と、抽出した各文書データの時間情報及び出現企業名を比較し、同一事象に係る複数の文書データを一対の企業の組合せ毎に関連文書データとして抽出する関連文書抽出手段と、各関連文書データからそれぞれキーワードを抽出するキーワード抽出手段と、各キーワードの存否を関連文書毎にチェックし、少なくとも2以上の関連文書中に存在しているキーワードを相関キーワードと認定する相関キーワード認定手段と、上記一対の企業名及び上記相関キーワードからなる企業相関情報を、上記企業相関情報記憶手段に格納する手段を備えたことを特徴としている。
The industry map generation system according to
請求項4に記載した業界マップ生成システムは、請求項1〜3に記載のシステムであって、さらに上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴としている。
An industry map generation system according to
請求項5に記載した業界マップ生成システムは、請求項4に記載のシステムであって、さらに上記フィルタの一つが、(1) 各文書データ中に含まれる名詞を注目語として抽出し、(2) 各注目語の全文書データ中における出現頻度を算出し、(3) 各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、(4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、(5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴としている。
The industry map generation system according to
請求項6に記載した業界マップ生成システムは、請求項1〜5に記載のシステムであって、さらに上記関連度算出手段が、(1)文書データ単位で、当該文書データ中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、(2)文書データ単位で、各選別キーワード間の出現頻度を乗算し、その積を所定の記憶手段に記録する処理と、(3)文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を所定の記憶手段に記録する処理と、(4) 上記選別キーワード間の積を、全文書データに亘って集計する処理と、(5) 各選別キーワードの出現頻度の二乗値を、全文書データに亘って集計する処理と、(6) 上記(5)の集計値の平方根を算出する処理と、(7) 各キーワードの上記(6)の平方根同士を加算し、その和で上記(4)の集計値を除することにより、両キーワード間の関連度を算出する処理とを実行することを特徴としている。
The industry map generation system according to
請求項1に記載した業界マップ生成システムによれば、特定業界を示すキーワードが入力された時点で、最新の情報に基づいて当該業界の主要企業(連想企業)及び周辺企業を導き出し、各企業間の相関関係を記述した業界マップを自動的に出力することができるため、現状にマッチした業界の全体像を簡易迅速に可視化することが可能となる。また、業界を構成する企業の特定や相関関係の抽出は、多数の文書データに基づいて自動的に実行されるため、人間の主観に基づく偏りを排した、客観的な業界マップを得ることが可能となる。
According to the industry map generation system described in
請求項2に記載した業界マップ生成システムによれば、連想企業間あるいは連想企業と周辺企業間が線図で結ばれると共に、当該線図上にキーワードが配置された業界マップが出力されるため、各企業間の関係性が明確化される利点が生じる。
According to the industry map generation system described in
請求項3に記載した業界マップ生成システムによれば、大量の文書データ中から相互に関係のある一対の企業名と、両企業間における相関キーワードを自動的に抽出することが可能となるため、企業間の関係について記述した文書データを個別に検索・収集する手間暇を大幅に低減できると共に、人為的なミスによって重要な情報が漏れることを防止可能となる。
According to the industry map generation system described in
請求項4及び5に記載した業界マップ生成システムの場合、複数のフィルタを用いて文書データ中からそれぞれ独自にキーワード候補を抽出させ、これらの中で2以上のフィルタによって抽出されたものを正式なキーワードと認定する仕組みを備えているため、重要なキーワードの取りこぼしを防止すると同時に、重要でないノイズがキーワード中に混入することを防止できる。
特に請求項5のシステムの場合、キーワード候補の抽出に際し、複数の文書データ中における出現頻度に基づいてある注目語をキーワード候補として選定するか否かを判断する仕組みを備えているため、選定されたキーワード候補の重要度に対して客観性を持たせることが可能となる。
In the case of the industry map generation system according to
In particular, in the case of the system of
請求項6に記載した業界マップ生成システムによれば、まず文書データ単位で、出現頻度がゼロのため他のキーワードとの関連度算出が不要なキーワードを事前に排除し、出現実績のあるキーワード間で関連度を算出した後、全文書単位に集計する手法を採用している結果、全体の計算処理を簡素化できる。
また、新規の文書データが追加された場合でも、当該新規文書データ単位で(1)〜(3)の処理を行い、この算出結果を(4)及び(5)の既存の集計値に加算した後、(6)及び(7)の計算をやり直すだけで済み、文書データ追加時における関連度の再計算処理が容易化される利点がある。
さらに、古くなった文書データの影響を排除する必要がある場合にも、当該旧文書データに係る(2)及び(3)の値を(4)及び(5)の集計値から減算した後、(6)及び(7)の計算をやり直すだけで済むため、キーワード間の関連度を最新のものに維持することが容易となる。
According to the industry map generation system described in
In addition, even when new document data is added, the processing of (1) to (3) is performed for the new document data unit, and this calculation result is added to the existing aggregate values of (4) and (5). Thereafter, it is only necessary to redo the calculations of (6) and (7), and there is an advantage that the recalculation processing of the relevance level when the document data is added is facilitated.
Furthermore, when it is necessary to eliminate the influence of outdated document data, after subtracting the values of (2) and (3) related to the old document data from the aggregated values of (4) and (5), Since it is only necessary to redo the calculations of (6) and (7), it becomes easy to keep the relevance between keywords up to date.
図1は、企業相関情報抽出システム10の機能構成を示すブロック図であり、巡回先DB12と、Webファイル収集部13と、テキスト生成部14と、文書DB15と、企業名DB16と、関連文書抽出部17と、キーワード抽出部18と、類義語辞書19と、同義語辞書20と、企業相関情報抽出部21と、企業相関情報DB22と、企業相関図生成部23とを備えている。
このシステム10にはWebサーバ24が接続されており、このWebサーバ24は、インターネット25やイントラネット等のネットワークを介して複数のクライアント26及びニュースサイト等を開設している他の複数のWebサーバ27と接続されている。
FIG. 1 is a block diagram showing a functional configuration of a company correlation
A
上記のWebファイル収集部13、テキスト生成部14、関連文書抽出部17、キーワード抽出部18、企業相関情報抽出部21及び企業相関図生成部23は、サーバコンピュータのCPUが、OS及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。
The above-mentioned Web
上記の巡回先DB12、文書DB15、企業名DB16、類義語辞書19、同義語辞書20及び企業相関情報DB22は、同サーバコンピュータのハードディスクに格納されている。
The
巡回先DB12には、予め複数のニュースサイトのURL及び抽出対象文書の所在を特定する情報が登録されている。
また、企業名DB16には、予め多数の企業に係る通称、略称、愛称が、正式名称と関連付けて蓄積されている。
類義語辞書19には、多数のキーワードと、それぞれの同義語との対応関係が予め格納されている。
同義語辞書20には、多数のキーワードと、それぞれの類義語との対応関係が予め格納されている。
In the
In the company name DB 16, common names, abbreviations, and nicknames associated with a large number of companies are stored in association with official names.
The
In the
上記のキーワード抽出部18は、図2に示すように、係り受け表現抽出フィルタ18a、区切り文字抽出フィルタ18b、文字列頻度統計フィルタ18c、TermExtractフィルタ18d、キーワード認定フィルタ18eを備えている。
As shown in FIG. 2, the
つぎに、図3のフローチャートに従い、企業相関情報の抽出工程について説明する。
まずWebファイル収集部13は、インターネット25上で文書データを公開しているニュースサイト等の複数のWebサーバ27を定期的に巡回し、予め設定されたルールに従い、Webファイルを大量に収集する(S10)。この際、Webファイル収集部13は巡回先DB12を参照し、アクセスすべきWebサイトのURL及び収集対象文書の所在情報を取得する。
Next, the extraction process of company correlation information will be described with reference to the flowchart of FIG.
First, the Web
これらのWebファイルは、テキスト生成部14において不要なHtmlタグが除去され、プレーンなテキストデータに整形された後(S12)、文書DB15に格納される(S14)。この際、各文書データには、ユニークな文書IDと、当該文書データの元になったWebファイルの所在を示すURLと、時間情報(掲載日、収集日時、蓄積日時等)と、情報源を識別するコードとが関連付けられる。
These Web files are stored in the document DB 15 (S14) after the unnecessary Html tag is removed by the
なお、上記のようにWebファイル収集部13及びテキスト生成部14の協働によって自動的に文書データを文書DB15に蓄積する代わりに、人間の手によって収集・選別・加工された文書データを、文書DB15に蓄積しておくこともできる。
Instead of automatically storing the document data in the
つぎに、関連文書抽出部17が起動し、文書中に2以上の企業名が登場する同一事象に係る複数の文書データを、一対の企業の組合せ単位で文書DB15から抽出する(S16)。
このため関連文書抽出部17は、まず企業名DB16に登録された各企業名及びその略称等をキーに文書データの全文検索を順次実行し、各文書データ中に登場する企業名の数を算出し、それが2以上ある文書データを選別する。
つぎに関連文書抽出部17は、選別された各文書データの日付情報及び企業名をマッチングし、一対の企業名が一致し、かつ日付が近いもの同士を同一事象に係る関連文書データと認定する。
Next, the related
For this reason, the related
Next, the related
図4(a)は、この同一事象に係る関連文書データの一例を示すものであり、文書データ30(情報源:A新報)、文書データ31(情報源:Bニュース)、文書データ32(情報源:C新聞)には、それぞれ「D通信(DDI)」と「Eサーチ」という共通の企業名が登場しており、公開日も同一であるため、関連文書抽出部17によって「D通信−Eサーチ」間の関連文書として抽出された。 FIG. 4 (a) shows an example of related document data related to the same event. Document data 30 (information source: A new report), document data 31 (information source: B news), document data 32 (information Source: C newspaper) has common company names “D communication (DDI)” and “E search”, and the release date is the same. It was extracted as a related document between “e-search”.
文書データ31中の「DDI」は、他の文書データ中の「D通信」と表現上は異なっているが、企業名DB16においてD通信の略称として定義されているため、関連文書抽出部17によって関連文書として抽出された。すなわち、関連文書抽出部17は、企業名DB16を参照することにより、企業名の表記のゆれを吸収することができる。
Although “DDI” in the
なお、文書データ30及び文書データ32には、D通信とEサーチの他に、F商社という第三の企業名が登場しているが、このシステム10は一対の企業間の相関関係を抽出することを企図しているため、この場面では「D通信−Eサーチ」に係る関連文書として取り扱われる。ただし、文書データ30及び文書データ32は、関連文書抽出部17によって「D通信−F商社」及び「Eサーチ−F商社」に係る関連文書としても抽出される(詳細は後述)。
In addition to the D communication and E search, a third company name F trading company appears in the
上記の各文書の日付は完全に一致していたが、この発明はこれに限定されるものではなく、時間的に近い範囲内(例えば2日以内)であれば、同一事象に係る関連文書と認定することができる。 The dates of the above documents were completely the same. However, the present invention is not limited to this, and if it is within a time range (for example, within two days), the related documents related to the same event Can be certified.
つぎにキーワード抽出部18は、関連文書抽出部17によって抽出された各関連文書に係り受け表現抽出フィルタ18aを適用し、各文書データから所定の係り受け表現を備えた文字列を抽出する(S18)。
すなわち、係り受け表現抽出フィルタ18aには、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部18は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
Next, the
That is, the dependency
つぎにキーワード抽出部18は、各関連文書データに区切り文字抽出フィルタ18bを適用し、「○○」、"○○"、(○○)、[○○]、,○○,のように、カンマや括弧、スペース、タブ等の区切り文字で囲まれた○○の部分をキーワード候補として抽出する(S20)。
Next, the
つぎにキーワード抽出部18は、各関連文書データに文字列頻度統計フィルタ18cを適用し、各関連文書データに含まれる文字列が文書DB15に格納された他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する(S22)。
まず文字列頻度統計フィルタ18cは、図5に示すように、関連文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が文書DB15内に蓄積された全文書データ中に出現する数を集計する。つぎに、文字列頻度統計フィルタ18cは、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
Next, the
First, as shown in FIG. 5, the character string frequency
例えば、DVDの一つ前の形態素を含む「したDVD」の出現頻度は「2」と低いため、これ以上前の形態素に範囲が拡張されることはない。これに対し、DVDの一つ後の形態素を含む「DVDレコーダー」の出現頻度は「862」と多いため、その一つ後の形態素を含む「DVDレコーダーでは」の出現頻度を集計する。そして、この出現頻度は「5」と低いため、これ以降の形態素に範囲を拡張することが停止される。 For example, since the appearance frequency of “done DVD” including the previous morpheme of the DVD is as low as “2”, the range is not expanded to the previous morpheme. On the other hand, since the appearance frequency of “DVD recorder” including the next morpheme of DVD is as many as “862”, the appearance frequencies of “DVD recorder” including the next morpheme are tabulated. Since the appearance frequency is as low as “5”, the expansion of the range to subsequent morphemes is stopped.
上記の「形態素」とは、意味を有する最小の言語単位を指す。例えば、「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。 The above “morpheme” refers to the smallest linguistic unit having meaning. For example, when “my name is Suzuki” is broken down into morphemes, “I (pronoun)” “no (particle)” “name (general noun)” “ha (counselor)” “Suzuki (proprietary noun)” “ Is (auxiliary verb) ".
つぎに文字列頻度統計フィルタ18cは、「DVD」及び「DVDレコーダー」が所定範囲(例えば20〜5,000)内の出現頻度を備えていることを理由にキーワード候補として抽出する。これに対し、「したDVD」及び「DVDレコーダーでは」は上記の範囲外であるため、キーワード候補から除外される。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書データの分量や検索システムの使用目的に応じて適宜調整される。
Next, the character string frequency
This is because, if the frequency of occurrence is less than 20 in all documents, it is not an important word in the first place, and if it exceeds 5,000, it is considered a general word or general word with no features. The amount is adjusted as appropriate according to the amount of use and the purpose of use of the search system.
ところで、文書DB15内に蓄積された多量の文書データに含まれる各文字列に関して、それぞれの出現頻度を集計するには膨大な時間を要するため、図6に示すように、文書DB15内には予め全文書データに登場する各形態素が、個々の文書データ中に存在しているか否かを一覧表にまとめたインデックス(所謂転置インデックス)が生成されている。このため、キーワード抽出部18はこのインデックスを参照することにより、比較的短時間でその出現頻度を取得することが可能となる。
By the way, since it takes a lot of time to count the appearance frequency of each character string included in a large amount of document data stored in the
つぎにキーワード抽出部18は、各関連文書データにTermExtractフィルタ18dを適用し、各関連文書データから所定以上のスコアを備えた文字列をキーワード候補として抽出する(S24)。
このTermExtractフィルタ18dは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書データ中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtractフィルタ18d自体は公知技術であるため、これ以上の説明は省略する。
Next, the
This
つぎにキーワード抽出部18は、係り受け表現抽出フィルタ18a、区切り文字抽出フィルタ18b、文字列頻度統計フィルタ18c、TermExtractフィルタ18dによって抽出された各キーワード候補をキーワード認定フィルタ18eに入力し、キーワードを絞り込む。
キーワード認定フィルタ18eでは、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し(S26)、企業相関情報抽出部21に出力する。
Next, the
In the
図4(b)は、関連文書30から「提携」「携帯電話端末」「ネット事業」「検索サービス」のキーワードが抽出され、関連文書31からは「協業」「Z-mode」「ネット事業」「リスティング広告」のキーワードが、関連文書32からは「検索連動広告」「検索サービス」「加入者」「解約」のキーワードが、キーワード抽出部18によって抽出されたことを示している。
In FIG. 4B, keywords of “partnership”, “mobile phone terminal”, “net business”, and “search service” are extracted from the related
上記のように、係り受け表現抽出フィルタ18a、区切り文字抽出フィルタ18b、文字列頻度統計フィルタ18c、TermExtractフィルタ18dの4つのフィルタを用いることにより、文書データからキーワードを抽出する際に重要語が漏れ落ちることを防止すると共に、キーワード認定フィルタ18eを用いて絞り込むことにより、不要なキーワード(ノイズ)が混入することを防止できる。
As described above, by using the four filters of dependency
なお、4つのフィルタ中の2以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定するのは一例であり、3以上のフィルタによって選別されることをキーワード認定の要件とすることもできる。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部18に設け、5以上のフィルタ中の2以上のフィルタによって選別されたキーワード候補を正式なキーワードと認定することもできる。
Note that keyword candidates selected by two or more filters among the four filters are recognized as formal keywords, and selection by three or more filters may be a requirement for keyword recognition.
Further, the number of filters is not limited to the above, and other effective keyword candidate extraction filters are provided in the
つぎに企業相関情報抽出部21が起動し、各関連文書から抽出されたキーワード同士をマッチングし、各キーワードの得票数を算出する。
すなわち、図4(c)に示すように、企業相関情報抽出部21は各キーワードが情報源を異にする各関連文書中に含まれていたか否かを判定し、含まれていた場合には得票1を、含まれていなかった場合には得票0をテーブル中に記録していく。そして、2以上の得票数を勝ち得たキーワードについては、D通信及びEサーチ間の相関キーワードとして採用される。
Next, the company correlation
That is, as shown in FIG. 4C, the company correlation
例えば、「ネット事業」については、A新報及びBニュースに記載があり、得票数が2であるため、相関キーワードとして採用されている。
これに対し「加入者」については、C新聞のみに記載があり、A新報及びBニュースの文書中には登場しないため、得票数が1にとどまり、相関キーワードとして不採用となっている。
For example, “Internet business” is described in A newsletter and B news, and since the number of votes is 2, it is adopted as a correlation keyword.
On the other hand, “subscriber” is described only in the C newspaper and does not appear in the A newsletter and B news documents, so the number of votes is only 1 and is not adopted as a correlation keyword.
なお、相関キーワードとして採用されるか否かのボーダーラインとなる「得票数2以上」はあくまでも一例であり、全ての関連文書中に当該キーワードが存在していることを相関キーワードとして採用されるための条件とすることもできる(全会一致)。
あるいは、関連文書数の過半数以上の得票を得てはじめて相関キーワードとして認定されるようにすることもできる(多数決)。
Note that “two or more votes”, which is a border line indicating whether or not to be adopted as a correlation keyword, is merely an example, and the fact that the keyword exists in all related documents is adopted as a correlation keyword. It can also be a condition of (unanimous).
Alternatively, it may be recognized as a correlation keyword only after obtaining a vote of more than a majority of related documents (majority decision).
念のため付言するが、上記の得票はあるキーワードが関連文書に存在しているという事実に対して「1」が付与されるのであり、ある関連文書中に当該キーワードが5箇所に登場したとしても、「5」の得票が与えられるわけではない。 As a reminder, the above vote is given “1” for the fact that a certain keyword exists in the related document, and the keyword appears in five places in the related document. However, a vote of “5” is not given.
企業相関情報抽出部21は、各キーワードをマッチングするに際し、類義語辞書19及び同義語辞書20を参照することにより、両者が完全一致でなくてもそれぞれの得票を集約する機能を備えている。
The company correlation
例えば、A新報の文書中に登場する「提携」とBニュースの文書中に登場する「協業」は、類義語辞書19において類義語として定義されているため、企業相関情報抽出部21は両者を同類のキーワードと認定し、A新報及びBニュースの得票を合算して「2票」を計上している。これはすなわち、企業相関情報抽出部21が、2つの関連文書中に「提携(競業)」が存在しているものと認定していることを意味している。
For example, the “association” appearing in the A newsletter document and the “collaboration” appearing in the B news document are defined as synonyms in the
また、Bニュースの「リスティング広告」とC新聞社の「検索連動広告」は、同義語辞書20において同義語として定義されているため、企業相関情報抽出部21は両者を同義のキーワードと認定し、Bニュース及びC新聞の得票を合算して「2票」を計上している。これはすなわち、企業相関情報抽出部21が、2つの関連文書中に「リスティング広告(検索連動広告)」が存在しているものと認定していることを意味している。
In addition, since the “listing advertisement” of B news and the “search-linked advertisement” of C newspaper are defined as synonyms in the
以上のようにして、相関キーワードを決定した企業相関情報抽出部21は、複数の相関キーワードを両相関企業名(D通信及びEサーチ)に関連付けて、企業相関情報DB22に格納する(S32)。この際、各関連文書のIDも、企業相関情報の構成要素の一つとして企業相関情報DB22に格納される。
As described above, the company correlation
上記の通り、文書データ30及び文書データ32は、関連文書抽出部17によって「D通信−F商社」及び「Eサーチ−F商社」に係る関連文書としても抽出される。そして、キーワード抽出部18によるキーワード抽出処理及び企業相関情報抽出部21による企業相関情報抽出処理を経て、「D通信−F商社」間の企業相関情報及び「Eサーチ−F商社」間の企業相関情報が企業相関情報DB22に格納される。
As described above, the
つぎに、図7のフローチャートに従い、企業相関図の生成・公開処理について説明する。まず、クライアント26から企業名を特定した企業相関図の表示リクエストをWebサーバ24が受け付けると(S40)、企業相関図生成部23が起動し、企業相関情報DB22から該当企業に係る企業相関情報を抽出する(S42)。
例えば、クライアント26から「D通信」を特定したリクエストがあった場合、企業相関図生成部23は、D通信に係る全ての企業相関情報を取り出して企業相関図を生成し(S44)、Webサーバ24経由でクライアント26に企業相関図表示画面が送信される(S46)。
Next, the generation / publication process of a company correlation diagram will be described with reference to the flowchart of FIG. First, when the
For example, when there is a request specifying “D communication” from the
この結果、図8に示すように、D通信に関係する2件の企業相関図が記載された画面がクライアント26のWebブラウザ上に表示される。
図8(a)の企業相関図35は、D通信とEサーチの二つの企業(相関企業)間における相関関係を示すものであり、提携(協業)、ネット事業、検索サービス、検索連動広告(リスティング広告)が、相関キーワードとして記述されている。この2社の企業名と相関キーワードが記述された相関図を参照することにより、ユーザはD通信とEサーチ間でネット事業(特に検索連動広告)に関する提携話が存在することを認識することができる。
また、図8(b)の企業相関図36は、D通信とG電機間における相関関係を示すものであり、特許権、侵害、訴訟(訴え)、ライセンス(通常実施権)が、相関キーワードとして記述されている。この相関図を参照することにより、ユーザはD通信とG電機との間で、特許権の侵害訴訟に関する何らかの問題が存在することを認識することができる。
As a result, as shown in FIG. 8, a screen on which two business correlation diagrams related to D communication are described is displayed on the Web browser of the
The
The
「根拠文書の表示」ボタン37には、企業相関図生成の元になった関連文書データのIDがリンクされているため、これをユーザがクリックすると、当該文書のIDがクライアント26からWebサーバ24に送信される。これを受けたWebサーバ24は、文書DB15から該当の文書データを抽出し、クライアント26に送信する。
この結果、図示は省略したが、クライアント26のWebブラウザ上に情報源の異なる複数の関連文書が記述された画面が表示される。
これを閲覧することにより、ユーザは各企業間に存在する相関関係を詳細に確認することが可能となる。この画面中には各関連文書のURLも記述されているため、これをクリックすることにより、ユーザは元のWebページに容易にアクセスすることができる。
The “display evidence document”
As a result, although not shown, a screen on which a plurality of related documents with different information sources are described is displayed on the Web browser of the
By browsing this, the user can confirm in detail the correlation that exists between the companies. Since the URL of each related document is also described in this screen, the user can easily access the original Web page by clicking this URL.
ユーザが、表示リクエスト時にD通信とEサーチの両者をAND条件で繋いで指定した場合には、企業相関図生成部23により、図8(a)の企業相関図35のみが表示された画面が生成される。
ユーザは、相関キーワードを指定した表示リクエストをすることもできる。例えば、「ネット事業 AND 提携」が表示条件として指定された場合、企業相関図生成部23は、企業相関情報DB22内に格納された全企業相関情報の中で、相関キーワードとして「ネット事業及び提携」を備えた情報を抽出し、それらの企業相関図が記載された画面をクライアント26に送信する。
When the user designates both D communication and E search connected by AND condition at the time of the display request, the company correlation
The user can also make a display request specifying a correlation keyword. For example, when “net business AND alliance” is designated as the display condition, the company correlation
図9は、業界マップ生成システム50の機能構成を示すブロック図であり、文書DB15と、キーワード抽出部18と、キーワードDB51と、関連度算出部52と、キーワード共起頻度表DB53と、キーワード組合せ頻度総和表DB54と、キーワード頻度総和表55と、キーワード関連度表DB56と、業界マップ生成部57と、企業相関情報DB22と、企業名DB16とを備えている。
このシステム50にはWebサーバ24が接続されており、このWebサーバ24は、インターネット25やイントラネット等のネットワークを介して複数のクライアント26と接続されている。
FIG. 9 is a block diagram showing the functional configuration of the industry
A
キーワード抽出部18、関連度算出部52及び業界マップ生成部57は、サーバコンピュータのCPUが、OS及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。
The
文書DB15、キーワードDB51、キーワード共起頻度表DB53、キーワード組合せ頻度総和表DB54、キーワード頻度総和表55、キーワード関連度表DB56、企業相関情報DB22、企業名DB16は、同サーバコンピュータのハードディスクに格納されている。
文書DB15には、上記した企業相関情報抽出システム10のWebファイル収集部13によってインターネット上のWebサーバ27から収集され、テキスト生成部14によってプレーンテキスト化された大量の文書データが格納されている。
企業名DB16は、上記企業相関情報抽出システム10の企業名DB16と同様、予め多数の企業に係る通称、略称、愛称が、正式名称と関連付けて蓄積されている。
キーワード抽出部18は、上記企業相関情報抽出システム10のキーワード抽出部18と同様、係り受け表現抽出フィルタ18a、区切り文字抽出フィルタ18b、文字列頻度統計フィルタ18c、TermExtractフィルタ18d、キーワード認定フィルタ18eを備えている(図2参照)。
企業相関情報DB22には、上記企業相関情報抽出システム10の企業相関情報抽出部21によって抽出された企業相関情報(一対の企業名、両企業間の相関キーワード、関連文書ID)が格納されている。
The
In the
The
The company
以下、図10のフローチャートに従い、文書データからのキーワードの抽出処理及びキーワード間の関連度の算出処理について説明する。
まず、キーワード抽出部18は、文書DB15に蓄積された各文書データに係り受け表現抽出フィルタ18aを適用し、上記と同様の要領で各文書データから所定の係り受け表現を備えた文字列を抽出する(S50)。
In the following, a process for extracting keywords from document data and a process for calculating the degree of association between keywords will be described with reference to the flowchart of FIG.
First, the
つぎにキーワード抽出部18は、各文書データに区切り文字抽出フィルタ18bを適用し、上記と同様の要領で所定の区切り文字で囲まれた文字列をキーワード候補として抽出する(S52)。
Next, the
つぎにキーワード抽出部18は、各文書データに文字列頻度統計フィルタ18cを適用し、上記と同様の要領で各文書データに含まれる文字列が文書DB15に格納された他の文書も含めて何回登場するのかを集計し、一定範囲の出現頻度を備えた文字列をキーワード候補として抽出する(S54)。
Next, the
つぎにキーワード抽出部18は、各文書データにTermExtractフィルタ18dを適用し、上記と同様の要領で各文書データから所定以上のスコアを備えた文字列をキーワード候補として抽出する(S56)。
Next, the
つぎにキーワード抽出部18は、係り受け表現抽出フィルタ18a、区切り文字抽出フィルタ18b、文字列頻度統計フィルタ18c、TermExtractフィルタ18dによって抽出された各キーワード候補をキーワード認定フィルタ18eに入力し、キーワード認定フィルタ18eは上記と同様、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、キーワードDB51に格納する(S58)。
Next, the
つぎに関連度算出部52が起動し、各キーワードの各文書データ中における出現頻度を集計してキーワード共起頻度表を生成し、キーワード共起頻度表DB53に格納する(S60)。
図11は、キーワード共起頻度表DB53に格納されたキーワード共起頻度表の具体例を示すものであり、文書DB15に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。
Next, the degree-of-
FIG. 11 shows a specific example of the keyword co-occurrence frequency table stored in the keyword co-occurrence
ここで、あるキーワードXとYとの間の関連度は、数1のiにキーワード共起頻度表DB28に記載されたXとYの出現頻度を代入することにより、理論的には算出可能である。
この数1の分子は、キーワードX、Yの文書毎の出現頻度の積の全文書に亘る総和を意味するため、X、Yが同じ文書に出現する頻度が高いほど値は大きくなる。もっとも、特定の文書中におけるX及びYの出現頻度の絶対数が多ければそれにつられて分子の値は高くなってしまい、必ずしもXとYの共起性の高さを表しているとはいえない。これに対し分母は、キーワードX、Yの文書毎の出現頻度の二乗の全文書に亘る総和の平方根同士を加算したものであり、X、Yの特定文書中の出現頻度が高いほど値が大きくなる。このため、分子の値を分母の値で除算することにより、特定文書中におけるX、Yの出現頻度の絶対数が多いことの影響を排除し、X、Y間の共起性の高さに基づく関連度を導くことが可能となる。
Since the numerator of
ただし、単純に数1の計算を行うやり方では、文書データの分量及びキーワードの総数が多い場合には膨大な計算量が発生し、多くの処理時間を要することとなる。
そこで、この実施の形態では、キーワード共起頻度表に基づいてキーワード組合せ頻度総和表及びキーワード頻度総和表を生成することにより、計算工程の簡素化を図っている。
However, in the method of simply performing the calculation of
Therefore, in this embodiment, the calculation process is simplified by generating the keyword combination frequency summation table and the keyword frequency summation table based on the keyword co-occurrence frequency table.
図12は、その要領を例示するものである。この場合、キーワード共起頻度表にはキーワードKW-1〜KW-5の文書D1における出現頻度が記載されているが、この中KW-3及びKW-4の出現頻度は0であるため、実際に関連度を算出すべきキーワードの組合せは以下の3パターンで済むこととなる。
(KW-1, KW-2)、(KW-1, KW-5)、(KW-2, KW-5)
ここで関連度算出部52は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表を生成し、キーワード組合せ頻度総和表DB54及びキーワード頻度総和表DB55にそれぞれ格納する(S62、S64)。
FIG. 12 illustrates the procedure. In this case, the keyword co-occurrence frequency table describes the appearance frequencies of the keywords KW-1 to KW-5 in the document D1, but the KW-3 and KW-4 appearance frequencies are 0. The combination of keywords for which the degree of relevance should be calculated is the following three patterns.
(KW-1, KW-2), (KW-1, KW-5), (KW-2, KW-5)
Here, the
図12のキーワード組合せ頻度総和表では、文書D1についての値のみが記述されているが、関連度算出部52は同様の処理を各文書毎に実行し、その結果に基づいて値を加算していく。
同じく、図12のキーワード頻度総和表では、文書D1についての値のみが記述されているが、関連度算出部52は同様の処理を各文書毎に実行し、各文書における各キーワードの出現頻度を二乗した値を加算していく。
In the keyword combination frequency summation table of FIG. 12, only the value for the document D1 is described, but the
Similarly, in the keyword frequency total table of FIG. 12, only the value for the document D1 is described, but the
最後に関連度算出部52は、図13に示すように、キーワード組合せ頻度総和表DB54からキーワードX,Yの組合せ頻度の総和を読み込むと共に、キーワード頻度総和表DB55からキーワードXの二乗値の総和とキーワードYの二乗値の総和を読み込み、各二乗値の総和の平方根を求めた後、これらの値を数1に代入することにより、キーワードX,Y間の関連度を算出し、キーワード関連度表DB56に格納する(S66)。すべてのキーワードの組合せについて処理が終了するまで、関連度算出部52は処理を繰り返し、キーワード関連度表を生成する。
Finally, as shown in FIG. 13, the degree-of-
上記のように、文書データ毎に各キーワード間の組合せパターンを抽出し、それぞれの積値及び各キーワードの二乗値を求めた上で、各文書データの値を加算していくことにより、出現頻度が0のキーワードに係る計算処理を省くことが可能となる。 As described above, the combination pattern between keywords is extracted for each document data, the product value and the square value of each keyword are obtained, and then the value of each document data is added to the appearance frequency. This makes it possible to omit the calculation processing related to the keyword with 0.
また、文書DB15に新規の文書データが追加された場合には、この新規文書データ中の各キーワードに係る値を、キーワード組合せ頻度総和表DB54及びキーワード頻度総和表DB55に格納された既存の集計値に加算することによって、簡単にキーワード間の関連度が再計算可能となる。
古くなった文書データの影響を排除する場合にも、当該文書データ中の各キーワードに係る値をキーワード組合せ頻度総和表DB54及びキーワード頻度総和表DB55に格納された既存の集計値から減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
In addition, when new document data is added to the
Even when the influence of the obsolete document data is eliminated, the value related to each keyword in the document data is subtracted from the existing total values stored in the keyword combination frequency summation table DB54 and the keyword frequency summation table DB55. Thus, it is possible to easily maintain the degree of association between keywords in the latest state.
つぎに、図14のフローチャートに従い、業界マップの生成・公開処理について説明する。まず、クライアント26から特定業界を示すキーワードを指定した業界マップの表示リクエストをWebサーバ24が受け付けると(S70)、業界マップ生成部57が起動し、キーワード関連度表DB56から当該キーワードに対する関連度の高いの連想キーワードを所定数抽出する(S72)。
Next, industry map generation / publication processing will be described with reference to the flowchart of FIG. First, when the
例えば、クライアント26から「バイオテクノロジー」という業界を指定するキーワードが送信された場合、業界マップ生成部57はキーワード関連度表DB56に格納された全キーワードの「バイオテクノロジー」に対する関連度をソートし、上位所定数(例えば上位100件)のキーワードを「バイオテクノロジー」に対する連想キーワードとして抽出する。図15は、連想キーワードの一例を示すものであり、プラント、メタンガス、エタノール等のキーワードが、「バイオテクノロジー」に対する関連度の高い順に列記されている。
For example, when the keyword specifying the industry “biotechnology” is transmitted from the
つぎに業界マップ生成部57は企業名DB16を参照し、上記連想キーワードの中から企業名に該当するものを、「バイオテクノロジー」の連想企業として抽出する(S74)。図16は、連想企業の一例を示すものであり、共同発酵工業、日本化学研究所、ジラフホールディングス等の企業名が、「バイオテクノロジー」に対する関連度の高い順に列記されている。
Next, the industry
つぎに業界マップ生成部57は、図17に示すように、所定の面積を備えたマップ平面60上に、連想企業の企業名61及び連想企業の存在を示すアイコン62を配置する(S76)。
Next, as shown in FIG. 17, the industry
つぎに業界マップ生成部57は、企業相関情報DB22を参照し、一対の連想企業間の企業相関情報を取得すると共に(S78)、この相関情報をマップ平面60上に追記する(S80)。
例えば、共同発酵工業とジラフホールディングスに係る企業相関情報が企業相関情報DB22内に存在している場合、業界マップ生成部57は両者のアイコン62,62間を線図63で結ぶと共に、線図63上に「買収」の相関キーワード64を配置する。
他の連想企業との間に企業相関情報が登録されていない連想企業については、企業名61とアイコン62が表示されたままとなる。
Next, the industry
For example, when the company correlation information relating to Kyo Fermentation Industries and Giraffe Holdings exists in the company
For an associative company for which no corporate correlation information is registered with another associative company, the
つぎに業界マップ生成部57は、企業相関情報DB22を参照し、「バイオテクノロジー」の連想キーワード(プラント、メタンガス等)を相関キーワードとして含んでおり、かつマップ平面60上に配置された連想企業を片方の相関企業としている企業相関情報を抽出する(S82)。
Next, the industry
つぎに業界マップ生成部57は、抽出した企業相関情報をマップ平面60上に反映させ、業界マップを完成させる(S84)。具体的には、図18に示すように、企業相関情報に含まれる連想企業以外の相関企業を業界周辺企業と認定し、マップ平面60上にその企業名65(例えば「Y社」)及びアイコン66配置し、連想企業のアイコン62との間を線図67で結ぶと共に、連想キーワード68(例えば「バイオ燃料」)を線図67上に配置する。
Next, the industry
つぎに業界マップ生成部57は、完成した業界マップをWebサーバ24に出力し、この業界マップを含む業界マップ表示画面がWebサーバ24からクライアント26に送信される(S86)。
Next, the industry
連想企業同士は、相互に同一文書中における共起性が高いため同業である可能性が大きい。これに対し非連想企業は、連想企業との間で連想キーワードに絡んだ相関関係を有しているため、周辺企業と定義付けることができる。
この業界マップを概観することにより、ユーザは特定業界の主要な構成企業と、これに関わる周辺企業の全体像を掴むことが可能となる。
しかも、最新の報道内容を相関情報として即座に反映させることができるため、陳腐化していない情報をユーザに提供可能となる。
Associative companies are highly likely to be in the same industry because of their high co-occurrence in the same document. On the other hand, a non-associative company can be defined as a peripheral company because it has a correlation related to an associative keyword with the associative company.
By overviewing this industry map, the user can grasp the overall picture of the major constituent companies in a specific industry and the peripheral companies involved in this.
In addition, since the latest report content can be immediately reflected as correlation information, information that is not obsolete can be provided to the user.
10 企業相関情報抽出システム
12 巡回先DB
13 Webファイル収集部
14 テキスト生成部
15 文書DB
16 企業名DB
17 関連文書抽出部
18 キーワード抽出部
18a 表現抽出フィルタ
18b 文字抽出フィルタ
18c 文字列頻度統計フィルタ
18d キーワード認定フィルタ
19 類義語辞書
20 同義語辞書
21 企業相関情報抽出部
22 企業相関情報DB
23 企業相関図生成部
24 Webサーバ
25 インターネット
26 クライアント
27 Webサーバ
28 キーワード共起頻度表DB
30 文書データ
31 文書データ
32 文書データ
35 企業相関図
36 企業相関図
37 「根拠文書の表示」ボタン
50 業界マップ生成システム
51 キーワードDB
52 関連度算出部
53 キーワード共起頻度表DB
54 頻度総和表DB
55 キーワード頻度総和表DB
56 キーワード関連度表DB
57 業界マップ生成部
60 マップ平面
61 連想企業の企業名
62 連想企業のアイコン
63 線図
64 相関キーワード
65 周辺企業の企業名
66 周辺企業のアイコン
67 線図
68 連想キーワード
10 Company correlation information extraction system
12 Travel destination DB
13 Web file collection part
14 Text generator
15 Document DB
16 Company name DB
17 Related document extractor
18 Keyword extractor
18a Expression Extraction Filter
18b character extraction filter
18c string frequency statistics filter
18d keyword recognition filter
19 Thesaurus
20 synonym dictionary
21 Business correlation information extraction unit
22 Corporate correlation information DB
23 Business correlation diagram generator
24 Web server
25 Internet
26 clients
27 Web server
28 Keyword co-occurrence frequency table DB
30 Document data
31 Document data
32 Document data
35 Corporate correlation chart
36 Corporate correlation chart
37 “Show evidence document” button
50 Industry map generation system
51 Keyword DB
52 relevance calculator
53 Keyword Co-occurrence Frequency Table DB
54 Frequency Sum Table DB
55 Keyword Frequency Summation Table DB
56 Keyword Relevance Table DB
57 Industry map generator
60 Map plane
61 Company name of the association company
62 Associative company icon
63 diagram
64 correlation keywords
65 Company names of neighboring companies
66 Neighborhood company icons
67 diagram
68 associative keywords
Claims (6)
複数の企業名が格納された企業名記憶手段と、
複数の文書データから抽出したキーワードを格納しておくキーワード記憶手段と、
各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、
特定業界を示すキーワードが入力された場合に、上記関連度記憶手段を参照し、当該キーワードに対する関連度の高さに応じて複数のキーワードを連想キーワードとして抽出する手段と、
上記企業名記憶手段を参照し、連想キーワードの中で企業名に該当するものを連想企業として抽出する手段と、
各連想企業の存在を表すシンボルを、所定のマップ平面上に配置する手段と、
上記企業相関情報記憶手段を参照し、上記連想企業を両方の相関企業とする企業相関情報を抽出する手段と、
この企業相関情報に含まれる相関キーワードを、各連想企業に関連付けて上記マップ平面上に配置する手段と、
上記企業相関情報記憶手段を参照し、上記連想企業を一方の相関企業とすると共に、連想企業以外の企業を他方の相関企業とし、かつ上記連想キーワードを相関キーワードとして含む企業相関情報を抽出する手段と、
この企業相関情報の中で、連想企業以外の企業を周辺企業として抽出し、その存在を表すシンボルを上記マップ平面上に配置する手段と、
この企業相関情報の相関キーワードの中で、上記連想キーワードに該当するものを、周辺企業と連想企業に関連付けて上記マップ平面上に配置する手段と、
上記マップ平面を出力する手段と、
を備えたことを特徴とする業界マップ生成システム。 A company correlation information storage means for storing a plurality of company correlation information including a pair of correlation company names and a correlation keyword representing a relationship between the two companies;
A company name storage means for storing a plurality of company names;
Keyword storage means for storing keywords extracted from a plurality of document data;
Using the appearance frequency data in each document data of each keyword, calculating a relevance level based on the co-occurrence between keywords, and storing the relevance level in a keyword relevance storage unit;
Means for extracting a plurality of keywords as associative keywords according to the degree of relevance for the keyword, referring to the relevance degree storage means when a keyword indicating a specific industry is input;
A means for referring to the company name storage means and extracting associative companies those associated with the company name among the associative keywords;
Means for arranging a symbol representing the existence of each associative company on a predetermined map plane;
Means for extracting company correlation information with reference to the company correlation information storage means, with the association company as both correlation companies;
Means for associating a correlation keyword included in the company correlation information with each associative company on the map plane;
Means for extracting company correlation information by referring to the company correlation information storage means, setting the associated company as one correlated company, a company other than the associated company as the other correlated company, and including the associated keyword as a correlation keyword When,
In the company correlation information, a company other than the associative company is extracted as a neighboring company, and a symbol representing the presence is arranged on the map plane,
Among the correlation keywords of the company correlation information, a means for placing the one corresponding to the association keyword on the map plane in association with the surrounding company and the association company,
Means for outputting the map plane;
An industry map generation system characterized by comprising
上記企業名記憶手段を参照し、文書中に複数の企業名が出現する文書データを上記文書記憶手段から抽出する手段と、
抽出した各文書データの時間情報及び出現企業名を比較し、同一事象に係る複数の文書データを一対の企業の組合せ毎に関連文書データとして抽出する関連文書抽出手段と、
各関連文書データからそれぞれキーワードを抽出するキーワード抽出手段と、
各キーワードの存否を関連文書毎にチェックし、少なくとも2以上の関連文書中に存在しているキーワードを相関キーワードと認定する相関キーワード認定手段と、
上記一対の企業名及び上記相関キーワードからなる企業相関情報を、上記企業相関情報記憶手段に格納する手段と、
を備えたことを特徴とする請求項1または2に記載の業界マップ生成システム。 Predetermined time information is associated with the document data,
Means for extracting from the document storage means document data in which a plurality of company names appear in the document with reference to the company name storage means;
Related document extracting means for comparing the time information and the name of the appearing company of each extracted document data and extracting a plurality of document data related to the same event as related document data for each combination of a pair of companies;
A keyword extracting means for extracting a keyword from each related document data;
Correlated keyword recognition means for checking the presence / absence of each keyword for each related document and recognizing a keyword existing in at least two or more related documents as a correlation keyword,
Means for storing the company correlation information comprising the pair of company names and the correlation keyword in the company correlation information storage means;
The industry map generation system according to claim 1 or 2, further comprising:
各フィルタによって抽出されたキーワード候補をマッチングし、2以上のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とする請求項1〜3の何れかに記載の業界マップ生成システム。 The keyword extraction means includes a plurality of filters that extract keyword candidates based on unique extraction criteria,
4. The industry map generation system according to claim 1, wherein keyword candidates extracted by each filter are matched and keyword candidates extracted by two or more filters are recognized as keywords.
(1) 各文書データ中に含まれる名詞を注目語として抽出し、
(2) 各注目語の全文書データ中における出現頻度を算出し、
(3) 各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書中における出現頻度を算出し、
(4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、
(5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴とする請求項4に記載の業界マップ生成システム。 One of the above filters is
(1) Extract nouns included in each document data as attention words,
(2) Calculate the appearance frequency of all the attention words in all document data,
(3) Expand the range to the morpheme one and the next before each attention word, and calculate the appearance frequency of the attention word including this expansion range in all documents,
(4) If the appearance frequency calculated by the processing in (3) above is a predetermined number or more, the range is further expanded to the previous or subsequent morpheme, and all documents of the attention word including this expanded range Repeat the process of calculating the appearance frequency in the data until the appearance frequency falls below a predetermined number,
(5) The industry map generation system according to claim 4, wherein among the attention words including the first attention word and the expanded range, words having an appearance frequency within a predetermined range are selected as keyword candidates.
(1) 文書データ単位で、当該文書データ中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、
(2) 文書データ単位で、各選別キーワード間の出現頻度を乗算し、その積を所定の記憶手段に記録する処理と、
(3) 文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を所定の記憶手段に記録する処理と、
(4) 上記選別キーワード間の積を、全文書データに亘って集計する処理と、
(5) 各選別キーワードの出現頻度の二乗値を、全文書データに亘って集計する処理と、
(6) 上記(5)の集計値の平方根を算出する処理と、
(7) 各キーワードの上記(6)の平方根同士を加算し、その和で上記(4)の集計値を除することにより、両キーワード間の関連度を算出する処理と、
を実行することを特徴とする請求項1〜5の何れかに記載の業界マップ生成システム。 The relevance calculation means is
(1) In a document data unit, a process of selecting a keyword that has an appearance record in the document data and should be a target for calculating a relevance level;
(2) Multiply the appearance frequency between each selected keyword in document data units, and record the product in a predetermined storage means;
(3) A process of squaring the appearance frequency of each selected keyword in document data units and recording the value in a predetermined storage means;
(4) a process of summing up the product between the selected keywords over all document data;
(5) A process of summing up the square value of the appearance frequency of each selected keyword over all document data;
(6) A process for calculating the square root of the aggregate value of (5) above,
(7) A process of calculating the degree of association between both keywords by adding the square roots of (6) above for each keyword and dividing the sum of the above (4) by the sum,
The industry map generation system according to claim 1, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008122784A JP2009271798A (en) | 2008-05-08 | 2008-05-08 | Industry map generating system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008122784A JP2009271798A (en) | 2008-05-08 | 2008-05-08 | Industry map generating system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009271798A true JP2009271798A (en) | 2009-11-19 |
Family
ID=41438275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008122784A Pending JP2009271798A (en) | 2008-05-08 | 2008-05-08 | Industry map generating system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009271798A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073899A (en) * | 2010-09-29 | 2012-04-12 | Teikoku Databank Ltd | Business relation map generation system and program |
KR101137973B1 (en) * | 2011-11-02 | 2012-04-20 | 한국과학기술정보연구원 | Method and system for providing association technologies service |
KR101143466B1 (en) | 2011-09-26 | 2012-05-10 | 한국과학기술정보연구원 | Method and system for providing study relation service |
CN114741600A (en) * | 2022-04-21 | 2022-07-12 | 深圳市城市产业发展集团有限公司 | Method and device for business recruitment recommendation of enterprises in industrial park |
-
2008
- 2008-05-08 JP JP2008122784A patent/JP2009271798A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012073899A (en) * | 2010-09-29 | 2012-04-12 | Teikoku Databank Ltd | Business relation map generation system and program |
KR101143466B1 (en) | 2011-09-26 | 2012-05-10 | 한국과학기술정보연구원 | Method and system for providing study relation service |
KR101137973B1 (en) * | 2011-11-02 | 2012-04-20 | 한국과학기술정보연구원 | Method and system for providing association technologies service |
JP2013097785A (en) * | 2011-11-02 | 2013-05-20 | Korea Institute Of Science & Technology Infomation | Associated technology service providing method and system |
CN114741600A (en) * | 2022-04-21 | 2022-07-12 | 深圳市城市产业发展集团有限公司 | Method and device for business recruitment recommendation of enterprises in industrial park |
CN114741600B (en) * | 2022-04-21 | 2022-12-27 | 深圳市城市产业发展集团有限公司 | Method and device for recommending enterprise business recruitment in industrial park |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009271799A (en) | Company correlative information extracting system | |
CN101501630B (en) | Method for ranking computerized search result list and its database search engine | |
JP5647508B2 (en) | System and method for identifying short text communication topics | |
US8244773B2 (en) | Keyword output apparatus and method | |
US8515986B2 (en) | Query pattern generation for answers coverage expansion | |
JP2003076715A (en) | Method and system for retrieving web pages, program and recording medium | |
JP2011085986A (en) | Text summarization method, its device, and program | |
JP2009122807A (en) | Associative retrieval system | |
JP2008250623A (en) | Retrieval system | |
JP2010049473A (en) | Link information extraction device, link information extraction method, and program | |
JP4969209B2 (en) | Search system | |
JP2009271798A (en) | Industry map generating system | |
JP4912384B2 (en) | Document search device, document search method, and document search program | |
JP5191204B2 (en) | Associative search system | |
JP5180894B2 (en) | Attribute expression acquisition method, apparatus and program | |
Santos et al. | Mimicking web search engines for expert search | |
JP2010282403A (en) | Document retrieval method | |
JP6707410B2 (en) | Document search device, document search method, and computer program | |
JP4128209B2 (en) | Keyword extraction system | |
JP4959621B2 (en) | Keyword extraction system | |
KR20010082966A (en) | Method and system for providing related web sites for the current visitting of client | |
Li et al. | Characterizing Emerging Technologies of Global Digital Humanities Using Scientific Method Entities. | |
Li et al. | Qru-1: A public dataset for promoting query representation and understanding research | |
Viprey et al. | About Labbe's “intertextual distance” | |
JP2006215689A (en) | Information providing system |