JP4592556B2 - 文書検索装置、文書検索方法および文書検索プログラム - Google Patents
文書検索装置、文書検索方法および文書検索プログラム Download PDFInfo
- Publication number
- JP4592556B2 JP4592556B2 JP2005295545A JP2005295545A JP4592556B2 JP 4592556 B2 JP4592556 B2 JP 4592556B2 JP 2005295545 A JP2005295545 A JP 2005295545A JP 2005295545 A JP2005295545 A JP 2005295545A JP 4592556 B2 JP4592556 B2 JP 4592556B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- viewpoint
- document
- weighting
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本実施形態では、特許文書を検索対象文書とし、利用者から入力された文章内容に関連の深い文書を検索する特許検索システムについて述べる。本システムは、利用者から入力される文章および検索対象となる特許文書群に出現するタームに着目し、前述の「TF・IDF法」を用いて入力文章の内容に関連の深い文書を検索する。なお、本実施形態では日本語文章を対象としているが、英語等の外国語文章でも適用可能である。
また、利用者は入出力部1を介して入力文章の観点を選択する。選択された観点は選択観点3に格納保持される。
形態素解析42では、単語文字列およびその属性情報(品詞・活用・標準形など)を格納した単語辞書5および単語間の接続規則を格納した文法辞書6を参照して、整形された文章を単語毎に分割し、各単語の属性情報を抽出して単語テーブル9に格納する。
不要語除去43では、助詞・助動詞や一般の文書で良く使われる単語(「場合」「とき」など)など、文章の内容を特徴付けない単語(不要語)を格納した不要語辞書7を参照して不要語を除去する(本システムでは形態素解析結果に含まれる不要語に対して、不要語であることを示すフラグを立てる(図5参照))。
検索実行部11では、文書DB12に蓄積された特許文書データの各々に含まれるタームを抽出して重みを算出する検索インデクス生成部14によって予め生成された検索インデクス13と、検索タームテーブル10に格納された検索タームとを照合して、各文書との類似度を算出する。本システムでは類似度の算出尺度として、タームの重みを要素としたタームベクトル間の内積を算出する。もちろん、ベクトル間の余弦を算出するなど他の尺度を用いても全く問題はない。
図3は、形態素解析42の出力である単語テーブル8の一例である。この出力データは図1(A)の文章を入力とした場合のものである。単語テーブル8は、入力文章に出現するままの単語文字列である見出し語101、活用する単語についてその終止形に置き換えた標準形102、品詞103、その単語が不要語か否かをフラグで示した不要語フラグ104、その単語が検索タームであるかをフラグで示した検索タームフラグ105からなる。形態素解析42の時点では、不要語除去43およびターム特定44はまだ実行されていないので、不要語フラグ104および検索タームフラグ105は初期値0のままである。なお、形態素解析は既に広く知られた公知技術であるので、処理アルゴリズムについては言及しない。
図3に対して、不要語除去43が実行されることにより、不要語辞書7に格納されている単語に対して不要語フラグ104が1となる。また、ターム特定45が実行されることにより、検索タームである単語に対して検索タームフラグ105が1となる。この際、本システムは観点テーブル9を参照して検索タームとなるタームが何かを把握する。図1(A)の場合、観点が「課題」であるので、図5において観点名称が「課題」であるデータにおける「検索タームとする品詞908」に記載された品詞である名詞・動詞・英文字列を品詞として持つ単語を検索タームとみなすことができる。従って、検索タームフラグが1でかつ不要語フラグ104が0であるタームの標準形(「ブックエンド」「本」「出し入れ」「位置」「ずれる」)が検索タームと認定される。
図7は、図1で示した観点の選択方法を変えたものである。図1では、観点を列挙して利用者に適切なものを選択させるものであったが、図7では、観点毎に文章入力エリアを分けて表示し、利用者は適切なエリアにその観点に該当する文章を入力する。本形態は、観点が複数混合している文章を入力する場合に、文章のどの部分がどの観点に相当するかをシステムが容易に理解できるのが特長である。
(方法1)文章入力エリア毎に検索タームの抽出および重み付けを行い、その結果を一つにマージしてから検索を実行する。
(方法2)文章入力エリア毎に検索タームの抽出および重み付けを行い、それぞれの検索タームで検索を実行し、検索結果として出力される類似度をマージして最終的な類似度を算出する。
2 入力文章
3 選択観点
4 ターム抽出・重み付け部
5 単語辞書
6 文法辞書
7 不要語辞書
8 単語テーブル
9 観点テーブル
10 検索タームテーブル
11 検索実行部
12 文書DB
13 検索インデクス
14 検索インデクス生成部
15 検索結果生成表示部
Claims (12)
- 文書を格納する文書データベースと接続され、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された入力文章からターム群を抽出してその重要度を算出するターム抽出・重み付け部と、
前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記類似度の高い文書を、出力装置を介して利用者に報知する検索結果表示部と、を備えた文書検索装置であって、
前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを備え、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。 - 請求項1における文書検索装置において、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示する観点集合表示部と、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。 - 請求項1に記載の文書検索装置において、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。 - 請求項1に記載の文書検索装置において、
前記観点テーブルに、入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義しておき、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。 - 文書検索装置により実行される方法であって、
文書を格納する文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成するインデクス生成処理を行い、
入力装置を介して利用者によって入力された文章からターム群を抽出してその重要度を算出するターム抽出・重み付け処理を行い、
前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行処理を行い、
前記類似度の高い文書を、出力装置を介して利用者に報知する検索結果表示処理を行う文書検索方法であって、
前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。 - 請求項5に記載の文書検索方法において、
前記文書検索装置により、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示し、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。 - 請求項5に記載の文書検索方法において、
前記文書検索装置により、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出部・重み付け処理におけるターム抽出および重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。 - 請求項5に記載の文書検索方法において、
前記文書検索装置により、
前記入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておき、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出および重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。 - コンピュータに、
文書を格納する文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成するインデクス生成処理を行う手順と、
入力装置を介して利用者によって入力された文章からターム群を抽出してその重要度を算出するターム抽出・重み付け処理を行う手順と、
前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行処理を行う手順と、
前記類似度の高い文書を、出力装置を介して利用者に報知する検索結果表示処理を行う手順を実行させるための文書検索プログラムであって、
前記コンピュータに、
前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム。 - 請求項9に記載の文書検索プログラムにおいて、
前記コンピュータに、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示する手順と、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム。 - 請求項9に記載の文書検索プログラムにおいて、
前記コンピュータに、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示する手順と、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出部・重み付け処理におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム。 - 請求項9に記載の文書検索プログラムにおいて、
前記コンピュータに、
前記入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておく手順と、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定する手順と、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005295545A JP4592556B2 (ja) | 2005-10-07 | 2005-10-07 | 文書検索装置、文書検索方法および文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005295545A JP4592556B2 (ja) | 2005-10-07 | 2005-10-07 | 文書検索装置、文書検索方法および文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007102723A JP2007102723A (ja) | 2007-04-19 |
JP4592556B2 true JP4592556B2 (ja) | 2010-12-01 |
Family
ID=38029569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005295545A Expired - Fee Related JP4592556B2 (ja) | 2005-10-07 | 2005-10-07 | 文書検索装置、文書検索方法および文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4592556B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5397198B2 (ja) * | 2009-12-08 | 2014-01-22 | 日本電気株式会社 | 話題推薦装置、話題推薦装方法およびプログラム |
JP5652519B2 (ja) * | 2013-08-14 | 2015-01-14 | 富士通株式会社 | 情報検索方法、プログラム及び装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744567A (ja) * | 1993-07-29 | 1995-02-14 | Fujitsu Ltd | 文書検索装置 |
JPH07192020A (ja) * | 1993-03-12 | 1995-07-28 | Toshiba Corp | 文書情報検索装置 |
JP2002108936A (ja) * | 2000-10-03 | 2002-04-12 | Canon Inc | 情報検索装置及びその制御方法及びコンピュータ読み取り可能な記憶媒体 |
JP2004355550A (ja) * | 2003-05-30 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 自然文検索装置、その方法及びプログラム |
JP2005234732A (ja) * | 2004-02-18 | 2005-09-02 | Fuji Xerox Co Ltd | 文書管理装置および方法 |
JP2005242454A (ja) * | 2004-02-24 | 2005-09-08 | Seiko Epson Corp | 文書情報検索装置および文書情報検索方法ならびにそのプログラム |
-
2005
- 2005-10-07 JP JP2005295545A patent/JP4592556B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07192020A (ja) * | 1993-03-12 | 1995-07-28 | Toshiba Corp | 文書情報検索装置 |
JPH0744567A (ja) * | 1993-07-29 | 1995-02-14 | Fujitsu Ltd | 文書検索装置 |
JP2002108936A (ja) * | 2000-10-03 | 2002-04-12 | Canon Inc | 情報検索装置及びその制御方法及びコンピュータ読み取り可能な記憶媒体 |
JP2004355550A (ja) * | 2003-05-30 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | 自然文検索装置、その方法及びプログラム |
JP2005234732A (ja) * | 2004-02-18 | 2005-09-02 | Fuji Xerox Co Ltd | 文書管理装置および方法 |
JP2005242454A (ja) * | 2004-02-24 | 2005-09-08 | Seiko Epson Corp | 文書情報検索装置および文書情報検索方法ならびにそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2007102723A (ja) | 2007-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
CN116227466B (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN110795942A (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
Elbarougy et al. | Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers. | |
JP2000163437A (ja) | 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
KR20220041337A (ko) | 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
Tschuggnall et al. | Reduce & attribute: Two-step authorship attribution for large-scale problems | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP5214985B2 (ja) | テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
JP5614687B2 (ja) | 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100622 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100914 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |