JP2009098932A - 連想検索システム - Google Patents
連想検索システム Download PDFInfo
- Publication number
- JP2009098932A JP2009098932A JP2007269840A JP2007269840A JP2009098932A JP 2009098932 A JP2009098932 A JP 2009098932A JP 2007269840 A JP2007269840 A JP 2007269840A JP 2007269840 A JP2007269840 A JP 2007269840A JP 2009098932 A JP2009098932 A JP 2009098932A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document data
- associative
- keywords
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】予め複数のキーワードを蓄積しておくキーワードDB32と、予め各キーワードの連想語を蓄積しておく連想語DB34と、予め複数の企業名を格納しておく企業名DB36と、入力された文書データを形態素単位に分割する形態素解析部22と、各形態素をキーワードと比較し、文書データに含まれるキーワードを検出するキーワード検出部24と、連想語DB34を参照し、検出した各キーワードの連想語を取得する連想語抽出部26と、企業名DB36を参照し、各連想語中で企業名に該当するものを関連企業として抽出する関連企業抽出部28とを備えた連想検索システム10。
【選択図】図1
Description
この結果ユーザは、目的の情報に辿り着くことが可能となるのであるが、そこでの検索結果はあくまでも予想の範囲のものであり、検索結果リストを眺めても意外な発見を期待することはできなかった。もちろん、検索結果リスト中の個々のデータの詳細を検討する過程で新しい知見を得ることはできるが、検索語と関連の深い他の用語を含む情報を直接的に抽出することはできなかった。
そして、これらの文書データ中には、次代を担う技術やサービスに関する情報が含まれており、これらの情報と関連の深い企業名をリストアップすることができれば、上記のように漠然と投資先を探しているユーザに対して具体的な投資対象企業を提示することが可能となる筈であるが、現在までにこのような仕組みは存在していない。
ここで「共起性の高さ」とは、同一文書中に登場する割合(程度)の高さを意味している。
また「形態素」とは、意味を有する最小の言語単位を指す。例えば、.「私の名前は鈴木です」を形態素に分解すると、「私(代名詞)」「の(助詞)」「名前(一般名詞)」「は(係助詞)」「鈴木(固有名詞)」「です(助動詞)」となる。
特に、請求項5のシステムの場合、キーワード候補の抽出に際し、複数の文書データ中における出現頻度に基づいてある注目語をキーワード候補として選定するか否かを判断する仕組みを備えているため、選定されたキーワード候補の重要度に対して客観性を持たせることが可能となる。
また、新規の文書データが文書記憶手段に追加された場合でも、当該新規文書データ単位で(1)〜(3)の処理を行い、この算出結果を(4)及び(5)の既存の集計値に加算した後、(6)及び(7)の計算をやり直すだけで済み、文書データ追加時における関連度の再計算処理が容易化される利点がある。
さらに、古くなった文書データの影響を排除する必要がある場合にも、当該旧文書データに係る(2)及び(3)の値を(4)及び(5)の集計値から減算した後、(6)及び(7)の計算をやり直すだけで済むため、キーワード間の関連度を最新のものに維持することが容易となる。
連想検索サーバ12とWebサーバ14は、ネットワーク接続されている。
また、Webサーバ14は、インターネット16を介して他の多数のWebサーバ18及びユーザのPC端末20と接続されている。
また、上記のキーワードDB32、連想語DB34、企業名DB36は、同サーバ12のハードディスク内に設けられている。
上記連想語DB34には、図3に示すように、キーワードIDと複数の連想語との対応関係が登録されている。
上記企業名DB36には、図4に示すように、キーワードと企業名との対応関係が登録されている。
文書DB42には、新聞記事や学術雑誌、論文等の文書ファイル(テキストデータ)が予め多数蓄積されている。
まずキーワード抽出部44は、文書DB42内に蓄積された各文書ファイルに係り受け表現抽出フィルタ60を適用し、各文書ファイルから所定の係り受け表現を備えた文字列を抽出する(S10)。
すなわち、係り受け表現抽出フィルタ60には、「○○メーカー」、「○○が主力」、「○○を生産」という係り受け表現パターンが予め多数用意されており、キーワード抽出部44は、これに当てはまる表現パターンを検出した後、「○○」に相当する文字列をキーワード候補として抽出する。
まず文字列頻度統計フィルタ64は、図8に示すように、文書中の名詞(ここでは「DVD」)に注目し、このDVDという注目語が文書DB42内に蓄積された各文書ファイル中に出現する数を集計する。つぎに、文字列頻度統計フィルタ64は、この注目語の前後の形態素に範囲を拡張し、それぞれの全文書中に登場する頻度を集計し、出現頻度が一定以下(例えば20以下)となった時点で文字範囲拡張を停止する。
全文書中における出現頻度が20未満のものはそもそも重要語とはいえず、また5,000を越えるものは逆に特徴のない汎用語あるいは一般語と考えられるからであるが、この範囲設定は文書ファイルの分量や検索システムの使用目的に応じて適宜調整される。
このTermExtractは、専門分野のコーパス(主として研究目的で収集され、電子化された自然言語の文章からなる巨大なテキストデータ)から専門用語を自動抽出するために案出された文字列抽出アルゴリズムであり、文書ファイル中から単名詞及び複合名詞を候補語として抽出し、各候補語の出現頻度と連接頻度に基づいてそれぞれの重要度を算出する機能を備えている。このTermExtract自体は公知技術であるため、これ以上の説明は省略する。
多数決フィルタ68では、各フィルタによってリストアップされたキーワード候補同士をマッチングし、2以上のフィルタによってキーワード候補として挙げられているものを最終的なキーワードと認定し、ユニークな連番よりなるキーワードIDと関連付けてキーワードDB32に格納する(S18)。
また、フィルタの数も上記に限定されるものではなく、他の有効なキーワード候補抽出フィルタをキーワード抽出部44に設けることもできる。
まず関連度算出部48は、各キーワードの各文書ファイル中における出現頻度を集計してキーワード共起頻度表を生成し、キーワード共起頻度表DB50に格納する(S20)。
図11は、キーワード共起頻度表DB50に格納されたキーワード共起頻度表の具体例を示すものであり、文書DB42に格納された各文書D1〜Dnごとに、各キーワードKW-1〜nの出現頻度が記述されている。
そこで、この実施の形態では、キーワード共起頻度表に基づいてキーワード組合せ頻度総和表及びキーワード頻度総和表を生成することにより、計算工程の簡素化を図っている。
(KW-1, KW-2)、(KW-1, KW-5)、(KW-2, KW-5)
つぎに関連度算出部48は、各組合せ毎に出現頻度を乗じた値を記述したキーワード組合せ頻度総和表と、各キーワードの出現頻度を二乗した値を記述したキーワード頻度総和表を生成し、キーワード組合せ頻度総和表DB52及びキーワード頻度総和表DB54に格納する(S22、S24)。
同じく、図12のキーワード頻度総和表では、文書D1についての値のみが記述されているが、各文書における各キーワードの出現頻度を二乗した値を集計していき、各キーワードの最終的な値(総和)の平方根を求めることにより、数1の分母に相当する値が得られる。
古くなった文書ファイルの影響を排除する場合にも、当該文書ファイル中の各キーワードに係る値をキーワード組合せ頻度総和表DB52及びキーワード頻度総和表DB54に格納された既存の集計値から減算することによって、簡単にキーワード間の関連度を最新の状態に維持することが可能となる。
すなわち、連想語抽出部58は各キーワード毎に他のキーワードとの関連度の値をソートし、関連度の高い上位所定数(例えば50件)のキーワードを連想語と認定し、各連想語を当該キーワードのIDと関連付けて連想語DB34に格納する。
以下、図14のフローチャートに従い、このシステム10による連想検索処理の手順について説明する。
これを受けた連想検索サーバ12の形態素解析部22は、各文書データを言語的に意味を有する最小の単位である「形態素」に分解する(S32)。
この形態素解析部22及びキーワード検出部24を実現するために、既存の形態素解析アルゴリズム(例えば「MeCab」や「ChaSen」)を利用することもできる。
図15に示すように、この検索結果データには、文書ID毎に関連企業のリスト及び各関連企業と対になる文書中のキーワードが記述されている。
この検索結果表示画面は、ユーザからのリクエストに応じてPC端末20に配信される(S42)。
また、ユーザが関連企業リスト中の一つであるフルタ自動車をクリックすると、検索結果表示画面70のHTMLファイルに記述された制御プログラム(JavaScript等)の作用により、当該企業名とリンクが設定されたキーワードである「ハイブリッド車」がハイライト表示される。
このため、記事の内容から「ハイブリッド車」が将来的に有望であると判断したユーザは、即座にフルタ自動車がそのハイブリッド車に関係深いことを認識でき、投資対象の候補として認識することが可能となる。
もちろん、企業名や商品名、人物名等の各種文字列を格納させたデータベースを設けておき、特定文書に関連する企業名、商品名、人物名を網羅的にリストアップするように構成することもできる。
12 連想検索サーバ
14 Webサーバ
16 インターネット
18 他のWebサーバ
20 PC端末
22 形態素解析部
24 キーワード検出部
26 連想語抽出部
28 関連企業抽出部
32 キーワードDB
34 連想語DB
36 企業名DB
40 準備システム
42 文書DB
44 キーワード抽出部
48 関連度算出部
50 キーワード共起頻度表DB
52 キーワード組合せ頻度総和表DB
54 キーワード頻度総和表DB
56 キーワード関連度表DB
58 連想語抽出部
60 係り受け表現抽出フィルタ
62 区切り文字抽出フィルタ
64 文字列頻度統計フィルタ
66 TermExtractフィルタ
68 多数決フィルタ
68 多数決フィルタ
70 検索結果表示画面
72 文書表示欄
74 関連企業リスト欄
Claims (6)
- 予め複数のキーワードを蓄積しておくキーワード記憶手段と、
予め各キーワードとの共起性の高さに基づいて選定された所定数の連想語をキーワード毎に蓄積しておく連想語記憶手段と、
予め複数の企業名、人物名、商品名等、特定のカテゴリに属する文字列を格納しておく特定種文字列記憶手段と、
入力された文書データを形態素単位に分割する手段と、
各形態素を上記キーワードと比較し、文書データに含まれるキーワードを検出する手段と、
上記連想語記憶手段を参照し、検出した各キーワードの連想語を取得する手段と、
上記特定種文字列記憶手段を参照し、各連想語の中で当該記憶手段に格納された文字列と一致するものを関連文字列として抽出する手段と、
を備えたことを特徴とする連想検索システム。 - 上記関連文字列のリストを表示する欄と、上記文書データの内容を表示する欄を備えた検索結果表示画面を生成する手段を備え、
上記リスト中の各関連文字列にはキーワードとのリンクが設定されており、
リスト中の特定の関連文字列が選択されると、文書中の対応キーワードが強調表示されることを特徴とする請求項1に記載の連想検索システム。 - 複数の文書データが格納された文書記憶手段と、
上記の各文書データから複数のキーワードを抽出し、上記キーワード記憶手段に格納するキーワード抽出手段と、
全文書データ中における各キーワードの出現頻度を集計し、共起頻度記憶手段に格納する手段と、
各キーワードの各文書データ中における出現頻度データを用いて、キーワード間の共起性に基づく関連度を算出し、キーワード関連度記憶手段に格納する関連度算出手段と、
キーワード毎に他のキーワードとの間の関連度をソートした後、関連度の高い上位所定数のキーワードを当該キーワードの連想語として抽出し、上記連想語記憶手段に格納する連想語抽出手段とを備えたことを特徴とする請求項1または2に記載の連想検索システム。 - 上記のキーワード抽出手段が、それぞれ固有の抽出基準に基づいてキーワード候補を抽出する複数のフィルタを備え、
各フィルタによって抽出されたキーワード候補をマッチングし、少なくとも複数のフィルタによって抽出されたキーワード候補をキーワードとして認定することを特徴とする請求項3に記載の連想検索システム。 - 上記フィルタの一つが、
(1) 各文書データ中に含まれる名詞を注目語として抽出し、
(2) 各注目語の全文書データ中における出現頻度を算出し、
(3) 各注目語の一つ前及び/又は一つ後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出し、
(4) 上記(3)の処理によって算出された出現頻度が所定数以上の場合には、さらにその一つ前あるいは後の形態素に範囲を拡張し、この拡張範囲を含めた注目語の全文書データ中における出現頻度を算出する処理を、その出現頻度が所定数未満となるまで繰り返し、
(5) 最初の注目語及び拡張範囲を含めた注目語の中で、所定範囲内の出現頻度を有するものをキーワード候補として選定することを特徴とする請求項4に記載の連想検索システム。 - 上記関連度算出手段が、
(1) 文書データ単位で、当該文書中に出現実績があり、関連度算出の対象とすべきキーワードを選別する処理と、
(2) 文書データ単位で、各選別キーワード間の出現頻度を乗算し、その積を所定の記憶手段に記録する処理と、
(3) 文書データ単位で、各選別キーワードの出現頻度を二乗し、その値を所定の記憶手段に記録する処理と、
(4) 上記選別キーワード間の積を、全文書データに亘って集計する処理と、
(5) 各選別キーワードの出現頻度の二乗値を、全文書データに亘って集計する処理と、
(6) 上記(5)の集計値の平方根を算出する処理と、
(7) 各キーワードの上記(6)の平方根同士を加算し、その和で上記(4)の集計値を除することにより、両キーワード間の関連度を算出する処理と、
を実行することを特徴とする請求項3〜5の何れかに記載の連想検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007269840A JP5191204B2 (ja) | 2007-10-17 | 2007-10-17 | 連想検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007269840A JP5191204B2 (ja) | 2007-10-17 | 2007-10-17 | 連想検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009098932A true JP2009098932A (ja) | 2009-05-07 |
JP5191204B2 JP5191204B2 (ja) | 2013-05-08 |
Family
ID=40701875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007269840A Expired - Fee Related JP5191204B2 (ja) | 2007-10-17 | 2007-10-17 | 連想検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5191204B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011215897A (ja) * | 2010-03-31 | 2011-10-27 | Meiji Univ | データベース、類推エンジン及び類推システム |
KR20130003134A (ko) * | 2011-06-30 | 2013-01-09 | 삼성디스플레이 주식회사 | 전기 영동 표시 장치 및 이의 구동 방법 |
CN110308799A (zh) * | 2019-05-23 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 文本联想的方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04148370A (ja) * | 1990-10-11 | 1992-05-21 | Canon Inc | 文書処理装置 |
JPH09120401A (ja) * | 1995-10-24 | 1997-05-06 | Oki Electric Ind Co Ltd | シソーラス作成装置 |
JP2002175329A (ja) * | 2000-12-07 | 2002-06-21 | Canon Inc | 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
JP2005196749A (ja) * | 2003-12-12 | 2005-07-21 | Fit:Kk | 付加管理プログラム及び電子文書閲覧装置 |
JP2006190298A (ja) * | 2005-01-07 | 2006-07-20 | Palo Alto Research Center Inc | 電子テキストに概念的強調を自動的に施す方法 |
-
2007
- 2007-10-17 JP JP2007269840A patent/JP5191204B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04148370A (ja) * | 1990-10-11 | 1992-05-21 | Canon Inc | 文書処理装置 |
JPH09120401A (ja) * | 1995-10-24 | 1997-05-06 | Oki Electric Ind Co Ltd | シソーラス作成装置 |
JP2002175329A (ja) * | 2000-12-07 | 2002-06-21 | Canon Inc | 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
JP2005196749A (ja) * | 2003-12-12 | 2005-07-21 | Fit:Kk | 付加管理プログラム及び電子文書閲覧装置 |
JP2006190298A (ja) * | 2005-01-07 | 2006-07-20 | Palo Alto Research Center Inc | 電子テキストに概念的強調を自動的に施す方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011215897A (ja) * | 2010-03-31 | 2011-10-27 | Meiji Univ | データベース、類推エンジン及び類推システム |
KR20130003134A (ko) * | 2011-06-30 | 2013-01-09 | 삼성디스플레이 주식회사 | 전기 영동 표시 장치 및 이의 구동 방법 |
KR101865803B1 (ko) | 2011-06-30 | 2018-06-11 | 삼성디스플레이 주식회사 | 전기 영동 표시 장치 및 이의 구동 방법 |
CN110308799A (zh) * | 2019-05-23 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 文本联想的方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5191204B2 (ja) | 2013-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
Thelwall et al. | A comparison of methods for collecting web citation data for academic organizations | |
WO2010038540A1 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
JP2010055618A (ja) | トピックを基にした検索を提供する方法及びシステム | |
JP2001312505A (ja) | データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡 | |
Zhang et al. | Narrative text classification for automatic key phrase extraction in web document corpora | |
US20080065621A1 (en) | Ambiguous entity disambiguation method | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
JP2009271799A (ja) | 企業相関情報抽出システム | |
US20090276424A1 (en) | Method and system for keyword management | |
US20130031083A1 (en) | Determining keyword for a form page | |
Pasquali et al. | Interactive system for automatically generating temporal narratives | |
JP2009122807A (ja) | 連想検索システム | |
JP4969209B2 (ja) | 検索システム | |
JP2006318398A (ja) | ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP5191204B2 (ja) | 連想検索システム | |
Nazemi et al. | Comparison of full-text articles and abstracts for visual trend analytics through natural language processing | |
JP2010123036A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2009271798A (ja) | 業界マップ生成システム | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
US20080033953A1 (en) | Method to search transactional web pages | |
Barouni-Ebarhimi et al. | A novel approach for frequent phrase mining in web search engine query streams | |
JP2010186474A (ja) | 関連度辞書を用いた検索モデリングシステムおよび方法 | |
JP4128209B2 (ja) | キーワード抽出システム | |
Iyad et al. | Towards supporting exploratory search over the Arabic web content: The case of ArabXplore |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120704 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5191204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160208 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |