JP2005275767A - 文書情報検索装置および文書情報検索方法ならびにそのプログラム - Google Patents

文書情報検索装置および文書情報検索方法ならびにそのプログラム Download PDF

Info

Publication number
JP2005275767A
JP2005275767A JP2004087612A JP2004087612A JP2005275767A JP 2005275767 A JP2005275767 A JP 2005275767A JP 2004087612 A JP2004087612 A JP 2004087612A JP 2004087612 A JP2004087612 A JP 2004087612A JP 2005275767 A JP2005275767 A JP 2005275767A
Authority
JP
Japan
Prior art keywords
word
information
prefix
antonym
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004087612A
Other languages
English (en)
Inventor
Takashige Tanaka
敬重 田中
Ayahiro Nakajima
紋宏 中島
Yasuo Kasai
庸雄 河西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2004087612A priority Critical patent/JP2005275767A/ja
Publication of JP2005275767A publication Critical patent/JP2005275767A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 入力文章と当該入力文章に含まれる単語を反対語にした文章を用いて、従来に比べて所望の文書情報の検索の精度をあげることができる文書情報検索装置を提供する。
【解決手段】 入力文章の形態素解析を行なう形態素解析手段、形態素解析によって得られた入力文章中の単語の反対語が反対語記憶手段で記憶されているか否かと、当該反対語に対応付けられて反対語記憶手段が記憶している使用可否識別情報と、に基づいてその反対語が使用可か使用不可かを判定する反対語使用可否判定手段、入力文章中の各単語とその単語形態情報と、入力文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成する検索用情報生成手段、検索用情報と文書検索用情報記憶手段に記憶されている情報とを用いて、入力文章の内容に関連する文書情報を検索する文書情報検索手段を備える。
【選択図】 図1

Description

本発明は、入力された文章に基づいて、予め記憶する複数の文書情報の中から、入力文章の内容に関連する所望の文書情報を精度良く検索する文書情報検索装置および文書情報検索方法ならびにそのプログラムに関する。
従来、入力文章に関連する文章情報を検索する場合には、入力文章を形態素解析して入力文章中に含まれる単語を含む文書情報を検索することにより、入力文章の内容に関連する文書情報を検索していた。しかしながら、例えば、「コンピュータが動作しません」という文章は、「コンピュータが停止しています」という文章とほぼ同等の意味を有するため、元の入力文章の「動作」をその反対の単語の「停止」に変換し、さらに、入力文章の形態を否定から肯定に変換することで、「コンピュータが動作しません」と同等の意味を有する文章を生成し、そして、それら2つの文章を用いて文書情報を検索することでより、1つの入力文章を用いる時よりも、より精度よく文書情報を検索できることが考えられる。なお、反対語などを辞書データベースに登録しておき、文章における単語を反対語に置き換える技術が公開されている(例えば、特許文献1参照)。
特開昭62−197863号公報
ここで、例えば、入力文章が「アンインストールできない」という文章であった場合には、「アンインストール」という単語を反対語にして、さらに入力文章の形態を「否定」から「肯定」に変換すると、「インストールできる」という文章が生成されてしまい、「アンインストールできない」と「インストールできる」という全く内容の違う2つの文章で文書情報を検索することになってしまう。従って、最初の入力文章中の単語を反対語に変換して、入力文章の形態を否定から肯定または肯定から否定の形に変換した文章が、元の入力文章の内容と全く異なる内容になってしまう場合があるので、元の入力文章と新たに生成した文章の両方を用いて文書情報を検索することで、逆に検索の精度が下がってしまう問題が発生していた。
そこでこの発明は、入力文章と当該入力文章に含まれる単語を反対語にした文章を用いて、従来に比べて所望の文書情報の検索の精度をあげることができる文書情報検索装置および文書情報検索方法ならびにそのプログラムを提供することを目的としている。
本発明は、上述の課題を解決すべくなされたもので、文書情報ごとに、当該文書情報に含まれる各単語と当該単語の前記文書情報中における肯定形または否定形のいずれかの形態を示す単語形態情報とを記憶する文書検索用情報記憶手段と、単語と当該単語の反対語と該反対語の使用可、使用不可を示す使用可否識別情報とを対応付けて記憶した反対語記憶手段と、入力文章の形態素解析を行なう形態素解析手段と、前記形態素解析によって得られた前記入力文章中の単語の反対語が前記反対語記憶手段で記憶されているか否かと、当該反対語に対応付けられて前記反対語記憶手段が記憶している前記使用可否識別情報と、に基づいてその反対語が使用可か使用不可かを判定する反対語使用可否判定手段と、前記入力文章中の各単語とその単語形態情報と、前記入力文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成する検索用情報生成手段と、前記検索用情報と前記文書検索用情報記憶手段に記憶されている情報とを用いて、前記入力文章の内容に関連する文書情報を検索する文書情報検索手段とを備えることを特徴とする文書情報検索装置である。
本発明によれば、入力文章の各単語とそれらの単語形態情報、その入力文章における単語のうち反対語がデータベースに登録されている反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報とを用いて、文書情報を検索することになるので、結果として入力文章と、その入力文章と内容が同意であるが単語が異なる文章とを用いて文書情報の検索を行なうことになり、これにより、より精度の高い文書情報の検索結果を得ることができる。また、使用可否識別情報が使用不可を示す反対語については、使用しないようになるので、入力文章の単語を反対語にした場合に、入力文章とは全く異なる文章となってしまう文章を用いた検索を避けることができ、これにより、より精度の高い文書情報の検索結果を得ることができる。
また本発明は、上述の文書情報検索装置が、単語に付けられる複数種類の接頭語を記憶する第1接頭語記憶手段と、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語記憶手段で記憶されているか否かを判定する第1単語記憶可否判定手段と、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語辞書で記憶されていない場合に、当該単語の接頭語として前記接頭語記憶手段で記憶する接頭語が付けられているか否かを確認する接頭語確認手段と、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかの接頭語として前記接頭語記憶手段で記憶する接頭語が付けられている場合に、当該単語から接頭語を外して、その接頭語を外した単語が前記文書検索用情報記憶手段によって記憶されているか否かを判定し、記憶されていれば、それら接頭語を外す前の単語と接頭語を外した後の単語とを対応付けて前記反対語記憶手段に登録する第1反対語登録手段とを備えることを特徴とする。
本発明によれば、接頭語を外す前の単語と接頭語を外した後の単語とを対応付けて反対語記憶手段に登録するので、例えば、元々接頭語が付いていた「不自然」と単語と、その単語に対応する「自然」という反対語との組合せを反対語記憶手段に登録することができる。
また本発明は、前記第1反対語登録手段は、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかの接頭語として前記接頭語記憶手段で記憶する接頭語が付けられていない場合に、当該単語に前記接頭語記憶手段で記憶するいずれかの接頭語を付け、その接頭語を付けた単語が前記文書検索用情報記憶手段によって記憶されているか否かを判定し、記憶されていれば、それら接頭語を付ける前の単語と接頭語をつけた後の単語とを対応付けて前記反対語記憶手段に登録することを特徴とする。
本発明によれば、接頭語を外す前の単語と接頭語を外した後の単語とを対応付けて反対語記憶手段に登録するので、例えば、接頭語が付いていなかった「効率」という単語と、その単語に接頭語を付けた「非効率」という反対語の組合せを登録することができる。
また本発明は、上述の文書情報検索装置が、単語に付けられる複数種類の接頭語を、否定を表す接頭語と肯定を表す接頭語に分類して記憶する第2接頭語記憶手段と、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語記憶手段で記憶されているか否かを判定する第1単語記憶可否判定手段と、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語辞書で記憶されていない場合に、当該単語の接頭語として前記接頭語記憶手段で記憶する接頭語が付けられているか否かを確認する接頭語確認手段と、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかの接頭語として前記接頭語記憶手段で記憶する接頭語が付けられている場合に、前記否定を表す接頭語と前記肯定を表す接頭語のどちらがその単語の接頭語として付けられているかを前記第2接頭語記憶手段の記憶する接頭語から判定し、単語に付けられている接頭語が肯定の場合には否定の接頭語に代え、単語に付けられている接頭語が否定の場合には肯定の接頭語に代えて、当該接頭語を変えた単語が前記文書検索用情報記憶手段によって記憶されているか否かを判定し、記憶されていれば、接頭語を変えた単語と接頭語を代える前の単語とを対応付けて前記反対語記憶手段に登録する第2反対語登録手段とを備えることを特徴とする。
本発明によれば、接頭語を外す前の単語と接頭語を外した後の単語とを対応付けて反対語記憶手段に登録するので、例えば、接頭語が付いていなかった「効率」という単語と、その単語に接頭語を付けた「非効率」という反対語の組合せを登録することができる。
また本発明は、上述の文書情報検索装置が、前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが、前記反対語記憶手段に反対語として記憶されていた場合には、当該反対語とその反対語に対応する単語とを逆にして、前記反対語記憶手段に登録する第3反対語登録手段とを備えることを特徴とする。本発明によれば、既に反対語記憶手段で登録されているパターンとは逆の単語と反対語の組合せを登録することができる。
また本発明は、文書情報検索装置における文書情報検索方法であって、前記文書情報検索装置の文書検索用情報記憶手段が、文書情報ごとに、当該文書情報に含まれる各単語と当該単語の前記文書情報中における肯定形または否定形のいずれかの形態を示す単語形態情報とを記憶し、前記文書情報検索装置の反対語記憶手段が、単語と当該単語の反対語と該反対語の使用可、使用不可を示す使用可否識別情報とを対応付けて記憶し、前記文書情報検索装置の形態素解析手段が、入力文章の形態素解析を行ない、前記文書情報検索装置の反対語使用可否判定手段が、前記形態素解析によって得られた前記入力文章中の単語の反対語が前記反対語記憶手段で記憶されているか否かと、当該反対語に対応付けられて前記反対語記憶手段が記憶している前記使用可否識別情報と、に基づいてその反対語が使用可か使用不可かを判定し、前記文書情報検索装置の検索用情報生成手段が、前記入力文章中の各単語とその単語形態情報と、前記入力文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成し、前記文書情報検索装置の文書情報検索手段が、前記検索用情報と前記文書検索用情報記憶手段に記憶されている情報とを用いて、前記入力文章の内容に関連する文書情報を検索することを特徴とする文書情報検索方法である。
また本発明は、肯定形または否定形のいずれかの形態を示す単語形態情報とを記憶する文書検索用情報記憶手段と、単語と当該単語の反対語と該反対語の使用可、使用不可を示す使用可否識別情報とを対応付けて記憶した反対語記憶手段とを備えた、文書情報検索装置のコンピュータに実行させるプログラムであって、入力文章の形態素解析を行なう形態素解析処理と、前記形態素解析によって得られた前記入力文章中の単語の反対語が前記反対語記憶手段で記憶されているか否かと、当該反対語に対応付けられて前記反対語記憶手段が記憶している前記使用可否識別情報と、に基づいてその反対語が使用可か使用不可かを判定する反対語使用可否判定処理と、前記入力文章中の各単語とその単語形態情報と、前記入力文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成する検索用情報生成処理と、前記検索用情報と前記文書検索用情報記憶手段に記憶されている情報とを用いて、前記入力文章の内容に関連する文書情報を検索する文書情報検索処理とを前記コンピュータに実行させるプログラムである。
以下、本発明の一実施形態による文書情報検索装置を図面を参照して説明する。図1は同実施形態による文書情報検索装置の構成を示すブロック図である。この図において、符号1は文書情報検索装置である。そして文書情報検索装置1において符号11は入力された質問文章(入力文章)や文書情報データベースに記録されている文書情報の文書を形態素解析する形態素解析部(形態素解析手段)である。また12は質問文章に含まれる単語から、文書情報を検索するためのセレクト文(検索用情報)を生成する検索用情報生成部(反対語使用可否判定手段、検索用情報生成手段、第1接頭語記憶手段、第1単語記憶可否判定手段、接頭語確認手段、第1反対語登録手段、第2接頭語記憶手段、第2反対語登録手段、第3反対語登録手段)である。また13は検索用情報生成部12で生成されたセレクト文に基づいて、文書情報の検索処理を行なう検索処理部(文書情報検索手段)である。また14は、文書情報ごとに、当該文書情報に含まれる各単語と当該単語の文書情報中における肯定形または否定形のいずれかの形態を示す単語形態情報とを記憶する文書情報検索用データベース(文書検索用情報記憶手段)である。また15は、単語と当該単語の反対語と該反対語の使用可、使用不可を示す使用可否フラグ(使用可否識別情報)とを対応付けて記憶する反対語データベース(反対語記憶手段)である。また16は反対語データベースの記憶する情報を作成する反対語データベース作成処理部である。また17は複数の文書情報が記録されている文書情報データベースである。
そして、本実施形態の文書情報検索装置1は、質問文章の形態素解析を行なって得られた質問文章中の単語の反対語が反対語データベース15で記憶されているか否かと、当該反対語に対応付けられて反対語データベース15で記憶している使用可否フラグと、に基づいてその反対語が使用可か使用不可かを判定し、また、質問文章中の各単語とその単語形態情報と、質問文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成し、当該検索用情報と文書検索用データベース14に記憶されている情報とを用いて、質問文章の内容に関連する文書情報を検索する。
次に、文書情報検索用データベース14の保持するデータの構成について説明する。
図2は文書情報検索用データベースの保持するデータの構成を示す図である。この図が示すように、文書情報検査用データベース14は文書情報ごとに、文書情報のページID(PAGEID)や文書情報のタイトル(TITLE)を保持し、ページIDに関連づけて、文書情報に含まれる各単語のID(WORDID)や単語の重要度(TFIDF)を保持し、また単語ID(WORDID)に対応付けて、その単語の文字列(WORD)や単語形態情報(FHINSHI)を保持している。ここで単語形態情報(FHINSHI)は“0”または“1”のいずれかで示されており、“0”の場合にはその単語が文書情報中においては肯定形であり、“1”の場合にはその単語が文書情報中においては否定形であることを示している。そして、文書情報データベース17に記録されている文書情報は、形態素解析部11によって形態素解析され、文書情報検索用データベース14に、図2のように登録される。
次に、反対語データベース15の保持するデータの構成について説明する。
図3は反対語データベースの保持するデータの構成を示す図である。この図が示すように、反対語データベース15は単語と当該単語の反対語と使用可否フラグと確認フラグと、反対語データベース作成処理部16が行なうどの処理によって登録されたのかを示す情報とが対応付けられて記録されている。
図4は文章情報検索装置の反対語データベース作成処理フローを示す図である。
次に、図4を用いて、本実施形態の文書情報検索装置1による反対語データベース15の作成の処理について説明する。
まず、反対語データベース作成処理部16は、文書情報検索用データベース14から単語を1つ読み込み(ステップS1)、その単語が反対語データベース15の“単語”の項目に登録されているか否かを確認する(ステップS2)。ここでその単語が反対語データベース15の“単語”の項目に登録されていなければ、接頭語処理1(ステップS3)、接頭語処理2(ステップS4)、反対語処理(ステップS5)を行ない、その単語と当該単語の反対語とを対応付けて反対語データベース15に登録する(ステップS6)。
また反対語データベース作成処理部16は、文書情報検索用データベース14に記録されている単語だけでなく、質問文章に含まれる単語についても、その単語と当該単語の反対語を対応付けて反対語データベース15に登録する処理を行なう。この時、まず、反対語データベース作成処理部16は、形態素解析部11によって形態素解析された質問文章の各単語を読み込み、当該単語が反対語データベース15の“単語”の項目に登録されているか否かを確認する。そして、その単語が反対語データベース15の“単語”の項目に登録されていなければ、接頭語処理1、接頭語処理2、反対語処理を行ない、その単語と当該単語の反対語とを対応付けて反対語データベース15に登録する。また形態素解析部11から読み込んだ単語が反対語データベース15の“単語”の項目に登録されている場合には、その単語に対応付けられている反対語を読み取り、当該反対語が反対語データベース15の“単語”の項目に登録されているか否かを確認する。そして、登録されていない場合には接頭語処理1、接頭語処理2、反対語処理を行ない、反対語データベース15に登録する。
図5は接頭語処理1の処理フローを示す図である。
次に、図5を用いて接頭語処理1について説明する。
反対語データベース作成処理部16は、反対語データベース15の“単語”の項目に登録されていない単語について、まず、その単語に接頭語記憶ファイルに登録されている接頭語が付いているか否かを確認する(ステップS301)。ここで接頭語記憶ファイルは「非、不、未、無、反・・・」などの否定を表す接頭語や、「通、肯、当、好、快、正、有・・・」などの肯定の意味を示す接頭語が分類されて登録されており、予め反対語データベース作成処理部16がメモリなどに記憶している。
そして、単語に接頭語記憶ファイルに登録されている接頭語が付いている場合には、次に、反対語データベース作成処理部16は、その単語から接頭語を外して、当該接頭語を外した後の単語が文書情報検索用データベース14に登録されて入るか否かを確認する(ステップS302)。そして、文書情報検索用データベース14に登録されていれば、接頭語を外す前の単語と外した後の単語を対応付けて反対語データベース15に登録する(ステップS303)。この時、接頭語を外した後の単語を反対語データベース15の“単語”の項目に、また接頭語を外す前の単語を反対語データベース15の“反対語”の項目に登録する。
また、ステップS301において、単語に接頭語記憶ファイルに登録されている接頭語が付いていない場合には、当該単語に接頭語記憶ファイルに登録されている接頭語を1つずつつけて、接頭語を付けた単語が文書情報検索用データベース14に登録されているか否かを確認する(ステップS304)。そして、文書情報検索用データベース14に登録されていれば、接頭語を付ける前の単語と、接頭語を付けた後の単語を対応付けて反対語データベース15に登録する(ステップS305)。この時、接頭語を付けた後の単語を反対語データベース15の“単語”の項目に、また接頭語を付ける前の単語を反対語データベース15の“反対語”の項目に登録する。なお、接頭語処理1においては、例えば、「非効率」の「非」が外されて、「効率」と「非効率」が対応付けられて反対語データベース15に登録されたり、「自然」に「不」が付けられて、「不自然」と「自然」が対応付けられて反対語データベース15に登録されたりする。
図6は接頭語処理2の処理フローを示す図である。
次に、図6を用いて接頭語処理2について説明する。
反対語データベース作成処理部16は、反対語データベース15の“単語”の項目に登録されていない単語について、接頭語処理2を行なう際には、まず、その単語に接頭語記憶ファイルに登録されている接頭語が付いているか否かを確認する(ステップS401)。そして、単語に接頭語記憶ファイルに登録されている接頭語が付いている場合には、接頭語を単語から外して(ステップS402)、接頭語記憶ファイルに登録されている他のいずれかの接頭語を付けて(ステップS403)、文書情報検索用データベース14に登録されているか否かを確認する(ステップS404)。そして、文書情報検索用データベース14に登録されていれば、接頭語を付ける前の単語と、接頭語を付けた後の単語を対応付けて反対語データベース15に登録する(ステップS405)。この時、接頭語を付けた後の単語を反対語データベース15の“単語”の項目に、また接頭語を付ける前の単語を反対語データベース15の“反対語”の項目に登録する。なお、接頭語処理2においては、例えば、「非番」の「非」が外されて、接頭語に「当」が付けられ、「当番」と「非番」が対応付けられて反対語データベース15に登録されたり、「不調」の「不」が外されて、接頭語に「快」が付けられ、「快調」と「不調」が対応付けられて反対語データベース15に登録されたりする。
図7は反対語処理の処理フローを示す図である。
次に、図7を用いて反対語処理について説明する。
反対語データベース作成処理部16は、反対語データベース15の“単語”の項目に登録されていない単語について、反対語処理を行なう際には、その単語が反対語データベース15の“反対語”の項目に登録されているか否かを確認する(ステップS501)。そして、その単語が反対語データベース15の“反対語”の項目に登録されている場合には、“単語”の項目に登録されている単語と、その単語に対応付けられて“反対語”の項目に登録されている単語を逆にして、反対語データベース15に登録する(ステップS502)。つまり、“単語”の項目に登録されている単語を“反対語”の項目に、また“反対語”の項目に登録されている単語を“単語”の項目にして登録する。また、ステップS501において、単語が反対語データベース15の“反対語”の項目に登録されていない場合には、前記反対語データベース15の“単語”の項目に登録されていない単語を反対語辞書の“単語”の項目に登録する(ステップS503)。なおこの時、「使用可否フラグ」は"0"にして登録しておく。
以上の処理により、文書情報検索用データベース14に登録されている単語や質問文章から形態素解析して得られた単語についての反対語データベース15を作成することができる。そして、例えば、文書情報検索装置1の管理者が、反対語データベース15の登録状況を確認し、例えば、「インストール」の反対語として「アンインストール」が登録されている場合について、「インストール」の反対語として「アンインストール」が登録されているのは適当ではないと判断した場合、「使用可否フラグ」を“0”にして登録しておく。また反対語として使用するものについては「使用可否フラグ」を“1”にして登録しておく。また確認フラグは管理者が「使用可否フラグ」を確認したか否かを表す情報であり、管理者が登録する。
次に、文書情報検索装置1が入力を受付けた質問文章の内容に関連する文書情報を、予め記憶する複数の文書情報の中から検索する処理について説明する。
まず、文書情報検索装置1の形態素解析部11は質問文章を受付け、その質問文章を形態素解析して質問文章中の単語と各単語の肯定形または否定形の情報を得る。そして、形態素解析部11は質問文章の各単語を検索用情報生成部12に通知する。具体的には、例えば質問文章が「マシンが動作しません」であった場合には、形態素解析部11によって、「マシン」(肯定形)という単語と、「動作」(否定形)という単語の情報が得られる。そしてその各単語が検索用情報生成部12に通知される。
次に、検索用情報生成部12は、「マシン」という単語と「動作」という単語のそれぞれについて、その反対語が反対語データベース15で記憶されているか否かを確認する。例えば、「マシン」という単語が反対語データベース15の“単語”の項目に記憶されているか否かを確認する。ここで、「マシン」という単語の反対語はないとする。次に、検索用情報生成部12は、「動作」という単語の反対語を同様に反対語データベース15において確認する。ここで反対語データベース15の“単語”の項目に「動作」が記録され、それに対応付けられて“反対語”の項目に「停止」という単語が対応付けられており、さらに、「使用可否フラグ」が1である場合に、検索用情報生成部12は「動作」の反対語である「停止」の単語が使用可であると判断する。
そして、検索用情報生成部12は「マシン」の単語+「肯定形」の単語形態情報という情報と、「動作」の単語+「否定形」の単語形態情報という情報と、「停止」の単語+「肯定形」の単語形態情報<「停止」の単語を導いた「動作」の質問文章中における単語形態情報とは反対の形態を示す(つまり肯定形)単語形態情報>という情報からなるセレクト文を生成し検索処理部13に通知する。そして、検索処理部13が、検索用情報生成部12によって生成されたセレクト文と、文書情報検索用データベース14の記憶する情報とに基づいて、文書情報データベース17に存在する文書情報のページIDを検索し、出力する。
なお、検索用情報生成部12が生成したセレクト文は、例えば、
(A)「マシン」+(肯定形)の単語形態情報の情報については、
SELECT PAGEID FROM PAGEID,WORD,KEYWORD WHERE
WORD.WORD=”マシン” AND WORD.FHINSHI=0
AND PAGE.PAGEID=KEYWORD.PAGEID
AND KEYWORD.WORDID=WORD.WORDID;
というセレクト文となり、また、
(B)「動作」+(否定形)の単語形態情報の情報については、
SELECT PAGEID FROM PAGEID,WORD,KEYWORD WHERE
WORD.WORD=”動作” AND WORD.FHINSHI=1
AND PAGE.PAGEID=KEYWORD.PAGEID
AND KEYWORD.WORDID=WORD.WORDID;
というセレクト文になり、また、
(C)「停止」+(肯定形)の単語形態情報の情報については、
SELECT PAGEID FROM PAGEID,WORD,KEYWORD WHERE
WORD.WORD=”停止” AND WORD.FHINSHI=0
AND PAGE.PAGEID=KEYWORD.PAGEID
AND KEYWORD.WORDID=WORD.WORDID;
というセレクト文になる。
そして、検索用情報生成部12は上記(A)、(B)、(C)のセレクト文と、文書情報検索用データベース14の記憶する情報とに基づいて、文書情報データベース17に存在する文書情報のページIDを検索する。なお、セレクト文と文書情報検索用データベース14の記憶する情報とに基づいて、検索用情報生成部12が検索する処理は公知の技術であり、一般的には「全文検索処理」と呼ばれている。この全文検索処理の技術的内容は例えば特願2003−431677に記載されている。
そして、上述の処理により、質問文章の各単語とそれらの単語形態情報、その質問文章における単語のうち反対語がデータベースに登録されている反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報とを用いて、文書情報を検索することになるので、結果として質問文章と、その質問文章と内容が同意であるが単語が異なる文章とを用いて文書情報の検索を行なうことになり、これにより、より精度の高い文書情報の検索結果を得ることができる。また、使用可否識別情報が使用不可を示す反対語については、使用しないようになるので、質問文章の単語を反対語にした場合に、質問文章とは全く異なる文章となってしまう文章を用いた検索を避けることができ、これにより、より精度の高い文書情報の検索結果を得ることができる。
ここで、上述の文書情報検索装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
文書情報検索装置の構成を示すブロック図である。 文書情報検索用データベースの保持するデータの構成を示す図である。 反対語データベースの保持するデータの構成を示す図である。 文章情報検索装置の反対語データベース作成処理フローを示す図である。 接頭語処理1の処理フローを示す図である。 接頭語処理2の処理フローを示す図である。 反対語処理の処理フローを示す図である。
符号の説明
1・・・文書情報検索装置、11・・・形態素解析部、12・・・検索用情報生成部、13・・・検索処理部、14・・・文書情報検索用データベース、15・・・反対語データベース、16・・・反対語データベース作成処理部、17・・・文書情報データベース

Claims (7)

  1. 文書情報ごとに、当該文書情報に含まれる各単語と当該単語の前記文書情報中における肯定形または否定形のいずれかの形態を示す単語形態情報とを記憶する文書検索用情報記憶手段と、
    単語と当該単語の反対語と該反対語の使用可、使用不可を示す使用可否識別情報とを対応付けて記憶した反対語記憶手段と、
    入力文章の形態素解析を行なう形態素解析手段と、
    前記形態素解析によって得られた前記入力文章中の単語の反対語が前記反対語記憶手段で記憶されているか否かと、当該反対語に対応付けられて前記反対語記憶手段が記憶している前記使用可否識別情報と、に基づいてその反対語が使用可か使用不可かを判定する反対語使用可否判定手段と、
    前記入力文章中の各単語とその単語形態情報と、前記入力文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成する検索用情報生成手段と、
    前記検索用情報と前記文書検索用情報記憶手段に記憶されている情報とを用いて、前記入力文章の内容に関連する文書情報を検索する文書情報検索手段と、
    を備えることを特徴とする文書情報検索装置。
  2. 単語に付けられる複数種類の接頭語を記憶する第1接頭語記憶手段と、
    前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語記憶手段で記憶されているか否かを判定する第1単語記憶可否判定手段と、
    前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語辞書で記憶されていない場合に、当該単語の接頭語として前記接頭語記憶手段で記憶する接頭語が付けられているか否かを確認する接頭語確認手段と、
    前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかの接頭語として前記接頭語記憶手段で記憶する接頭語が付けられている場合に、当該単語から接頭語を外して、その接頭語を外した単語が前記文書検索用情報記憶手段によって記憶されているか否かを判定し、記憶されていれば、それら接頭語を外す前の単語と接頭語を外した後の単語とを対応付けて前記反対語記憶手段に登録する第1反対語登録手段と、
    を備えることを特徴とする請求項1に記載の文書情報検索装置。
  3. 前記第1反対語登録手段は、
    前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかの接頭語として前記接頭語記憶手段で記憶する接頭語が付けられていない場合に、当該単語に前記接頭語記憶手段で記憶するいずれかの接頭語を付け、その接頭語を付けた単語が前記文書検索用情報記憶手段によって記憶されているか否かを判定し、記憶されていれば、それら接頭語を付ける前の単語と接頭語をつけた後の単語とを対応付けて前記反対語記憶手段に登録する
    ことを特徴とする請求項2に記載の文書情報検索装置。
  4. 単語に付けられる複数種類の接頭語を、否定を表す接頭語と肯定を表す接頭語に分類して記憶する第2接頭語記憶手段と、
    前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語記憶手段で記憶されているか否かを判定する第1単語記憶可否判定手段と、
    前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが前記反対語辞書で記憶されていない場合に、当該単語の接頭語として前記接頭語記憶手段で記憶する接頭語が付けられているか否かを確認する接頭語確認手段と、
    前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかの接頭語として前記接頭語記憶手段で記憶する接頭語が付けられている場合に、前記否定を表す接頭語と前記肯定を表す接頭語のどちらがその単語の接頭語として付けられているかを前記第2接頭語記憶手段の記憶する接頭語から判定し、単語に付けられている接頭語が肯定の場合には否定の接頭語に代え、単語に付けられている接頭語が否定の場合には肯定の接頭語に代えて、当該接頭語を変えた単語が前記文書検索用情報記憶手段によって記憶されているか否かを判定し、記憶されていれば、接頭語を変えた単語と接頭語を代える前の単語とを対応付けて前記反対語記憶手段に登録する第2反対語登録手段と、
    を備えることを特徴とする請求項1から請求項3に記載の文書情報検索装置。
  5. 前記入力文章を形態素解析して得られた単語または前記文書検索用情報記憶手段で記憶する単語のいずれかが、前記反対語記憶手段に反対語として記憶されていた場合には、当該反対語とその反対語に対応する単語とを逆にして、前記反対語記憶手段に登録する第3反対語登録手段と、
    を備えることを特徴とする請求項1から請求項4に記載の文書情報検索装置。
  6. 文書情報検索装置における文書情報検索方法であって、
    前記文書情報検索装置の文書検索用情報記憶手段が、文書情報ごとに、当該文書情報に含まれる各単語と当該単語の前記文書情報中における肯定形または否定形のいずれかの形態を示す単語形態情報とを記憶し、
    前記文書情報検索装置の反対語記憶手段が、単語と当該単語の反対語と該反対語の使用可、使用不可を示す使用可否識別情報とを対応付けて記憶し、
    前記文書情報検索装置の形態素解析手段が、入力文章の形態素解析を行ない、
    前記文書情報検索装置の反対語使用可否判定手段が、前記形態素解析によって得られた前記入力文章中の単語の反対語が前記反対語記憶手段で記憶されているか否かと、当該反対語に対応付けられて前記反対語記憶手段が記憶している前記使用可否識別情報と、に基づいてその反対語が使用可か使用不可かを判定し、
    前記文書情報検索装置の検索用情報生成手段が、前記入力文章中の各単語とその単語形態情報と、前記入力文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成し、
    前記文書情報検索装置の文書情報検索手段が、前記検索用情報と前記文書検索用情報記憶手段に記憶されている情報とを用いて、前記入力文章の内容に関連する文書情報を検索する
    ことを特徴とする文書情報検索方法。
  7. 肯定形または否定形のいずれかの形態を示す単語形態情報とを記憶する文書検索用情報記憶手段と、
    単語と当該単語の反対語と該反対語の使用可、使用不可を示す使用可否識別情報とを対応付けて記憶した反対語記憶手段とを備えた、文書情報検索装置のコンピュータに実行させるプログラムであって、
    入力文章の形態素解析を行なう形態素解析処理と、
    前記形態素解析によって得られた前記入力文章中の単語の反対語が前記反対語記憶手段で記憶されているか否かと、当該反対語に対応付けられて前記反対語記憶手段が記憶している前記使用可否識別情報と、に基づいてその反対語が使用可か使用不可かを判定する反対語使用可否判定処理と、
    前記入力文章中の各単語とその単語形態情報と、前記入力文章中の単語のうち反対語が使用可である当該反対語とその反対語を導いた単語の単語形態情報とは反対の形態を示す単語形態情報と、からなる検索用情報を生成する検索用情報生成処理と、
    前記検索用情報と前記文書検索用情報記憶手段に記憶されている情報とを用いて、前記入力文章の内容に関連する文書情報を検索する文書情報検索処理と、
    を前記コンピュータに実行させるプログラム。
JP2004087612A 2004-03-24 2004-03-24 文書情報検索装置および文書情報検索方法ならびにそのプログラム Withdrawn JP2005275767A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004087612A JP2005275767A (ja) 2004-03-24 2004-03-24 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004087612A JP2005275767A (ja) 2004-03-24 2004-03-24 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Publications (1)

Publication Number Publication Date
JP2005275767A true JP2005275767A (ja) 2005-10-06

Family

ID=35175387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004087612A Withdrawn JP2005275767A (ja) 2004-03-24 2004-03-24 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Country Status (1)

Country Link
JP (1) JP2005275767A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010049650A (ja) * 2008-08-25 2010-03-04 Fujitsu Ltd 検索方法および検索プログラム
JP2011159098A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 類似度計算装置、類似度計算方法および類似度計算プログラム
JP2013128140A (ja) * 2005-05-13 2013-06-27 Nec Corp 半導体装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013128140A (ja) * 2005-05-13 2013-06-27 Nec Corp 半導体装置
JP2010049650A (ja) * 2008-08-25 2010-03-04 Fujitsu Ltd 検索方法および検索プログラム
JP2011159098A (ja) * 2010-02-01 2011-08-18 Nippon Telegr & Teleph Corp <Ntt> 類似度計算装置、類似度計算方法および類似度計算プログラム

Similar Documents

Publication Publication Date Title
JP3356536B2 (ja) 機械翻訳装置
JP2005276183A (ja) グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JP2010529569A (ja) 辞書の単語及び熟語の判定
JP2006309346A (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2009015512A (ja) 機械翻訳を行う装置、方法およびプログラム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
CN107148624A (zh) 预处理文本的方法以及用于执行该方法的预处理系统
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JP2007157123A (ja) 改善された中国語−英語翻訳ツール
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP2009098811A (ja) 文書分類装置およびプログラム
JP2005275767A (ja) 文書情報検索装置および文書情報検索方法ならびにそのプログラム
JP2009059300A (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
Daciuk Treatment of unknown words
TW201643749A (zh) 處理文書之資訊處理裝置、資訊處理方法及程式
Van Zaanen et al. The development of Dutch and Afrikaans language resources for compound boundary analysis
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
JP3379643B2 (ja) 形態素解析方法および形態素解析プログラムを記録した記録媒体
JP5147651B2 (ja) 文書データ内を検索するシステム、方法、およびプログラム
JP2005242454A (ja) 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605