JP5228451B2 - 文書検索装置 - Google Patents
文書検索装置 Download PDFInfo
- Publication number
- JP5228451B2 JP5228451B2 JP2007300175A JP2007300175A JP5228451B2 JP 5228451 B2 JP5228451 B2 JP 5228451B2 JP 2007300175 A JP2007300175 A JP 2007300175A JP 2007300175 A JP2007300175 A JP 2007300175A JP 5228451 B2 JP5228451 B2 JP 5228451B2
- Authority
- JP
- Japan
- Prior art keywords
- noun
- document
- expression
- weight value
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このような文書検索に係る発明として、特許文献1には、単語の係り受け関係や主語述語関係から指定された単語の修飾度を算出する方法が提案されており、算出された単語の修飾度を利用して検索結果のランキングを行っている。
また、非特許文献1には、仮定や否定の表現と共起する索引語の重要度を減らす手法が提案されており、例えば「A会社は倒産しなかった」の場合、否定表現「ない」と共起する単語「A会社」や「倒産」の重要度を減らすことで、このテキストが検索結果の上位に現れることを防いでいる。
例えば、「腫瘍が拡大していません。」という文を含む文書Aと、「腫瘍が見られません。」という文を含む文書Bがあり、利用者がキーワード「腫瘍」の存在に着目した検索を行いたい場合を想定する。この場合、文書Aでは「拡大している」という事態は否定されているが「腫瘍」そのものは存在していることが表明されており、一方で、文書Bでは、実際には「腫瘍」が無かったことが表明されている。したがって、文書Aはランキングの上位にくることが期待され、文書Bは検索対象から外れるか、若しくはランキングの下位にくることが期待される。
図1は、本例に係る文書検索装置の機能ブロック図を示している。
本例の文書検索装置は、検索対象の電子文書を格納する文書格納手段1、文を解析して構文の係り受け構造を求める構文解析手段2、構文解析結果から意味表現を求める意味解析手段3、文脈情報や事象関係を含むような知識表現を意味表現から求める知識解析手段4、索引語と存在に関する文脈情報との関係を知識表現から抽出する索引抽出手段5、索引語と文脈情報との関係を格納する索引格納手段6、利用者からキーワードを入力として受け取り、文脈情報を考慮した形で文書を検索して表示する検索手段7、を備えている。
図3は、本例の文書格納手段1に検索対象として格納されている文書を例示しており、「腫瘍が拡大していません。」を内容とした文書A、「腫瘍が見られません。」を内容とした文書B、「腫瘍の可能性が高いと思われます。」を内容とした文書Cが格納されている。
本例では、構文解析手段2により第1の解析手段を構成しているが、電子文書中の名詞と当該名詞に対応する述語との係り受け構造を解析できればよく、他の構成により第1の解析手段を実現してもよい。
本例では、意味解析手段3により第2の解析手段を構成しているが、述語が肯定表現あるいは否定表現であるかを解析できればよく、他の構成により第2の解析手段を実現してもよい。
(1)は文書Aの文「腫瘍が拡大していません。」から得た意味表現を示す論理式である。論理式の第1項は、文脈を表しており、1番目の論理式の文脈「t」は常に真であることを、2番目の論理式の文脈「ctx(拡大する:0)」は「拡大していません」の表現に対応することをそれぞれ表している。論理式の第2項は述語を表しており、第3項以降は述語に対応する項を表している。また、数字を含む述語や項は、文字列ラベルで表される実体を指しており、例えば「拡大する:0」は「拡大する(している)」という或る状態を、「腫瘍:0」は「腫瘍」という或る対象をそれぞれ指すことになる。
(2)は文書Bの文「腫瘍が見られません。」から得た論理式、(3)は文書Cの文「腫瘍の可能性が高いと思われます。」から得た論理式である。なお、文書Cに係る論理式では、文脈を表す第1項がいずれも「ctx(思われる:0)」となっており、各述語が「思われる」という文脈における表現であることを示している。
ここで、本例では各論理式の最終項にて肯定表現、否定表現、モーダル表現(可能性や推測といった内容に不確実性を含むことを表した表現)のいずれであるかを示しており、(1)および(2)の論理式はいずれも「ぬ」が設定されて否定表現、(3)の論理式は「可能性」が設定されてモーダル表現であることが分かる。
図5は、知識解析手段4で求めた知識表現を示しており、(1)は文書Aに対応する知識表現、(2)は文書Bに対応する知識表現、(3)は文書Cに対応する知識表現を示している。なお、知識表現の第1項は意味表現と同様に文脈を表し、第2項以降の要素は特定の実体を表すような概念とそれらの対応関係が記述されている。
本例では、知識解析手段4により第3の解析手段を構成しているが、述語によって表される概念が、対応する名詞で表現される対象の状態変化を表す概念か当該対象の存否を表す概念かを解析できればよく、他の構成により第3の解析手段を実現してもよい。
ここで、文書Cの意味表現(図4(3))では、「腫瘍」という対象に係る述語が特定されていないが、「腫瘍」が存在する可能性に関する表現の語である「可能性」(「確率」「蓋然性」などでもよい)が特定されているため、対象の存在を表す概念の述語として予め規定された「存在」を補完して知識表現を求めている。
図5(3)に示した文書Cの知識表現の場合、文脈c3の基で「腫瘍」が「存在する」ので、索引語として「腫瘍」を、存在に関する文脈情報として「存在の可能性が高い」を抽出する。
本例では、図6に示すように、各文書を識別する文書IDと、該文書から抽出した索引語と、当該索引語に係る文脈情報に基づく重み値と、を対応付けた索引情報を格納している。重み値は、文脈情報「存在する」(肯定表現)を最大値とし、以下、「存在の可能性が高い」(モーダル表現)、「存在しない」(否定表現)の順に値を小さくしている。すなわち、重み値は、索引語で示される対象の存在を肯定する表現ならば最大値、否定する表現ならば最小値、可能性を示す表現であるモーダル表現ならば中間値となる。本例では、索引抽出手段5が文脈情報の抽出と共にその重み値を求めているが、文脈情報の種類(肯定表現、モーダル表現、否定表現)と重み値との対応情報を索引格納手段6に持たせることで、索引格納手段6側で重み値を求めるようにしてもよい。
なお、検索手段7による検索を行う前に、文書格納手段8に格納されている文書に対して、これまで述べてきたような解析・抽出処理を行っており、その結果が索引格納手段6に格納してある。
つまり、キーワードとして「腫瘍」が入力された場合は、文書A、文書C、文書Bという順番で出力される。
すなわち、文解析手段が、第1の解析手段として、名詞・動詞など単語の品詞の係り受け構造を抽出し、第2の解析手段として、事実の断定表現や、可能性や推測といった内容に不確実性を含むことを表したモーダル表現など表す情報を抽出し、第3の解析手段として、述語の概念が、対応する名詞で表現される対象の状態変化を表す概念か当該対象の存否を表す概念かを表す情報を抽出する。そして、索引抽出手段5が、動詞などで表される出来事のタイプ、断定の表現や書き手が可能性や推測といった内容の不確実性を含むことを表したモーダル表現などの文脈情報から、出来事の主体を単語の品詞情報などから推定して索引語として抽出し、索引語が指し示す対象や事象などが実際に存在したかどうかの確実さを示す情報を、又は、不確実な場合はその確からしさを、存在に関する文脈情報として抽出すればよい。
このように、単語レベルの解析のみを行うことで検索の精度は低下するが、解析に必要な時間や記憶容量、必要なデータなどの計算資源を削減することができる。
すなわち、本例の文書検索装置は、各種演算処理を行うCPU、CPUの作業領域となるRAM、基本的な制御プログラムを記憶するROM、本発明に係る各機能を実現するためのプログラム等を記憶するHDD、利用者に対する情報を表示出力する液晶ディスプレイや利用者からの情報の入力を受け付けるマウス・キーボード等の機器とのインターフェースである入出力I/F、他の装置との間で通信を行うインターフェースである通信I/F、等のハードウェア資源を有するコンピュータで構成されている。
そして、本発明に係るプログラムをHDDから読み出してRAMに展開し、これをCPUにより実行させることで、本発明に係る各機能手段を、文書検索装置のコンピュータに実現している。
また、本発明に係る文書検索装置の各機能手段は、本例のようなソフトウェア構成により実現する態様に限られず、専用のハードウエアモジュールで構成してもよい。
また、本発明に係る文書検索装置の各機能手段は、本例のように1台のコンピュータに設ける態様に限られず、複数台のコンピュータに分散して設けてもよい。
2:構文解析手段、
3:意味解析手段、
4:知識解析手段、
5:索引抽出手段、
6:索引格納手段、
7:検索手段
Claims (4)
- 検索対象となる複数の電子文書を格納する文書格納手段と、
電子文書中の名詞と当該名詞に対応する述語との係り受け構造の解析を少なくとも行う第1の解析手段と、
前記述語が肯定表現あるいは否定表現であるかの解析を少なくとも行う第2の解析手段と、
前記述語が前記名詞で表現される対象の状態変化を表す概念か当該対象の存否を表す概念かの解析を少なくとも行う第3の解析手段と、
前記第1乃至第3の解析手段による解析結果に基づいて、前記述語が前記対象の状態変化を表す概念の場合は、第1の重み値を前記名詞について設定し、前記対象の存否を表す概念の場合は、肯定表現であれば前記第1の重み値を前記名詞について設定し、否定表現であれば前記第1の重み値より低い第2の重み値を前記名詞について設定する索引抽出手段と、
電子文書と該電子文書中の名詞および当該名詞の重み値とを対応付けて格納する索引格納手段と、
利用者に入力された名詞に基づいて前記文書格納手段から検索される複数の電子文書を、各電子文書中の当該名詞に係る前記索引格納手段に格納された重み値に従って順位付けした検索結果を出力する検索手段と、
を備えたことを特徴とする文書検索装置。 - 前記第2の解析手段は、前記述語が内容に不確実性が含まれるモーダル表現であるかを表す情報を知識表現情報に含めて出力し、
前記索引抽出手段は、前記述語が前記対象の存否を表す概念の場合は、モーダル表現であれば前記第1の重み値と前記第2の重み値との中間的な重み値を前記名詞について取得することを特徴とする請求項1に記載の文書検索装置。 - 前記第3の解析手段は、電子文書中の名詞に対応する述語が特定されず、当該名詞で表現される対象が存在する可能性に関する表現の語が特定された場合は、当該対象の存在を表す概念として予め規定された語を当該名詞に対応する述語として補完することを特徴とする請求項1又は請求項2に記載の文書検索装置。
- コンピュータを、
検索対象となる複数の電子文書を格納する文書格納手段と、
電子文書中の名詞と当該名詞に対応する述語との係り受け構造の解析を少なくとも行う第1の解析手段と、
前記述語が肯定表現あるいは否定表現であるかの解析を少なくとも行う第2の解析手段と、
前記述語が前記名詞で表現される対象の状態変化を表す概念か当該対象の存否を表す概念かの解析を少なくとも行う第3の解析手段と、
前記第1乃至第3の解析手段による解析結果に基づいて、前記述語が前記対象の状態変化を表す概念の場合は、第1の重み値を前記名詞について設定し、前記対象の存否を表す概念の場合は、肯定表現であれば前記第1の重み値を前記名詞について設定し、否定表現であれば前記第1の重み値より低い第2の重み値を前記名詞について設定する索引抽出手段と、
電子文書と該電子文書中の名詞および当該名詞の重み値とを対応付けて格納する索引格納手段と、
利用者に入力された名詞に基づいて前記文書格納手段から検索される複数の電子文書を、各電子文書中の当該名詞に係る前記索引格納手段に格納された重み値に従って順位付けした検索結果を出力する検索手段として機能させるための文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007300175A JP5228451B2 (ja) | 2007-11-20 | 2007-11-20 | 文書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007300175A JP5228451B2 (ja) | 2007-11-20 | 2007-11-20 | 文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009128967A JP2009128967A (ja) | 2009-06-11 |
JP5228451B2 true JP5228451B2 (ja) | 2013-07-03 |
Family
ID=40819870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007300175A Expired - Fee Related JP5228451B2 (ja) | 2007-11-20 | 2007-11-20 | 文書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5228451B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10198503B2 (en) | 2008-05-01 | 2019-02-05 | Primal Fusion Inc. | System and method for performing a semantic operation on a digital social network |
JP5457864B2 (ja) * | 2010-02-01 | 2014-04-02 | 日本電信電話株式会社 | 類似度計算装置、類似度計算方法および類似度計算プログラム |
WO2012070228A1 (ja) * | 2010-11-22 | 2012-05-31 | 日本電気株式会社 | 対話テキスト解析装置、方法およびプログラム |
WO2012088591A1 (en) * | 2010-12-30 | 2012-07-05 | Primal Fusion Inc. | System and method for performing a semantic operation on a digital social network |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046432A (ja) * | 2002-07-10 | 2004-02-12 | Ricoh Co Ltd | 文書検索装置、文書検索方法、文書検索プログラムおよび文書検索プログラムを記録した記録媒体 |
JP4110460B2 (ja) * | 2002-07-26 | 2008-07-02 | 富士ゼロックス株式会社 | 表現抽出装置および方法 |
JP4380142B2 (ja) * | 2002-11-05 | 2009-12-09 | 株式会社日立製作所 | 検索システム及び検索方法 |
-
2007
- 2007-11-20 JP JP2007300175A patent/JP5228451B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009128967A (ja) | 2009-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222181B2 (en) | System for knowledge acquisition | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
US10296584B2 (en) | Semantic textual analysis | |
Srihari et al. | Infoxtract: A customizable intermediate level information extraction engine | |
EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
US20090024385A1 (en) | Semantic parser | |
US20160188568A1 (en) | System and method for determining the meaning of a document with respect to a concept | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
Abulaish et al. | A concept-driven biomedical knowledge extraction and visualization framework for conceptualization of text corpora | |
US20140244676A1 (en) | Discovering Title Information for Structured Data in a Document | |
JP5228451B2 (ja) | 文書検索装置 | |
Patrick et al. | Automated proof reading of clinical notes | |
WO2005062202A2 (en) | Knowledge management system with ontology based methods for knowledge extraction and knowledge search | |
Saber et al. | Arabic ontology extraction model from unstructured text | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Agarwal et al. | FigSum: automatically generating structured text summaries for figures in biomedical literature | |
EP3679527A1 (en) | Semantic vector rule discovery | |
Fauzi et al. | Image understanding and the web: a state-of-the-art review | |
KR101057072B1 (ko) | 시맨틱 데이터 추출 시스템 및 이를 이용한 검색 엔진 | |
Mkrtchyan et al. | Deep parsing at the CLEF2014 IE task (DFKI-Medical) | |
JP6689466B1 (ja) | 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム | |
Al-Arfaj et al. | Arabic NLP tools for ontology construction from Arabic text: An overview | |
Kettaf et al. | Authorship attribution by functional discriminant analysis | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
JP2000105769A (ja) | 文書表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101021 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101118 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20110505 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130304 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160329 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5228451 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |