JP2005234688A - 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 - Google Patents

重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 Download PDF

Info

Publication number
JP2005234688A
JP2005234688A JP2004040181A JP2004040181A JP2005234688A JP 2005234688 A JP2005234688 A JP 2005234688A JP 2004040181 A JP2004040181 A JP 2004040181A JP 2004040181 A JP2004040181 A JP 2004040181A JP 2005234688 A JP2005234688 A JP 2005234688A
Authority
JP
Japan
Prior art keywords
search
word
search word
important
language identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004040181A
Other languages
English (en)
Other versions
JP4574186B2 (ja
Inventor
Hiroko Mano
博子 真野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004040181A priority Critical patent/JP4574186B2/ja
Publication of JP2005234688A publication Critical patent/JP2005234688A/ja
Application granted granted Critical
Publication of JP4574186B2 publication Critical patent/JP4574186B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】短い検索条件で用いられた、ユーザが検索に不可欠と考える検索語を、長い検索条件においても重要とみなすことで、ユーザの検索意図が十分に反映された重要語の正確な識別を図ること。
【解決手段】本発明の重要言語識別方法は、ユーザが入力した検索条件を受け付ける検索条件受付工程(ステップS401)と、前記検索条件受付工程で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出工程(ステップS402)と、前記検索語候補抽出工程で抽出された検索語候補の重要度を算定する単語重要度算定工程(ステップS404,ステップS406)と、を含むことを特徴とする。
【選択図】 図4

Description

本発明は、入力された自然言語中の重要語を識別する重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置に関する。
従来、自然言語による入力を検索条件とする文書検索においては、検索条件となっている文章中あるいは文書中から抽出された全単語から、真に検索に有用な重要語のみを識別する技術が採用されている。検索条件から抽出された各単語の重要度を算定するのに、従来から用いられてきたのは、単語の検索条件中での出現頻度である。すなわち、検索条件の中で繰り返し用いられている単語がそうでない単語よりも重要とみなされる。この場合、検索が行われるたびに、そこで与えられている検索条件のみに基づいて単語の重要度が判断される(例えば、特許文献1,2を参照。)。
一方、それらとは別に、過去の検索時の情報を後の検索に利用する方法もいくつか提案されている(例えば、特許文献3〜5を参照。)。特に、特許文献4に記載の技術は、過去の検索語の履歴を保存し、それを後の検索時に検索語候補として提示する。これにより、検索語が適切でなかった場合に検索条件を補正することができる。
特開平5−324733号公報 特開2001−290840号公報 特開2000−227922号公報 特開2002−7450号公報 特開2002−236699号公報
しかしながら、上記従来技術のように、単語の検索条件中での出現頻度を基に重要語を識別するのでは、検索条件の中で繰り返し用いられている単語がそうでない単語よりも重要とは限らないので、重要語として識別するための精度に問題がある。
例えば、特許文献4に開示された技術は、過去の検索語を検索語候補として提示する際に、検索対象や検索目的が限定されている状況での検索を想定している。したがって、このような制約のない場合には、実際に過去の検索語が適用できる場合は極めて限られるので、重要語として識別するための有効性は薄い。特に、検索条件として、単語だけでなく、ある程度長い文章も入力できるシステムでは、検索語候補である単語を予測提示しても、それが実際にユーザが入力しようとしている検索条件と一致する可能性は極めて低い。
本発明は、上述した従来技術による問題点を解消するため、ユーザが検索に不可欠と考える単語を重要語と識別し、ユーザの検索意図が十分に反映された重要語に基づく検索を支援する重要言語識別方法および重要言語識別プログラム、重要言語識別装置を提供することを目的とする。さらに、その重要言語識別装置を備えた文書検索装置、キーワード抽出装置を提供することも本発明の目的としている。
上述した課題を解決し、目的を達成するため、請求項1にかかる重要言語識別方法は、ユーザが入力した検索条件を受け付ける検索条件受付工程と、前記検索条件受付工程で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出工程と、前記検索語候補抽出工程で抽出された検索語候補の重要度を算定する単語重要度算定工程と、を含むことを特徴とする。
この請求項1に記載の発明によれば、抽出された検索語候補のうちユーザの検索意図を十分に反映しているものをその重要度により把握することができる。
また、請求項2の発明にかかる重要言語識別方法は、請求項1に記載の発明において、前記検索条件は、人間が特別な訓練なしに自然に習得し使用できる自然言語により設定されることを特徴とする。
この請求項2に記載の発明によれば、自然言語により検索条件が設定されるため、不自然な言語を検索語として選出することを防止できる。
また、請求項3にかかる重要言語識別方法は、請求項1または2に記載の発明において、前記検索語候補抽出工程は、ユーザにより入力された検索条件を形態素解析によって単語に分割し、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補とすることを特徴とする。
この請求項3に記載の発明によれば、検索語として不要な単語を排除することができる。
また、請求項4にかかる重要言語識別方法は、請求項1〜3のいずれか一つに記載の発明において、前記単語重要度算定工程は、前記検索語候補抽出工程で抽出された検索語候補の数が所定数以下の場合は、抽出された検索語候補をすべて同一レベルの重要語として認識し、重要語と認識された検索語候補の出現頻度累積値を記憶することを特徴とする。
この請求項4に記載の発明によれば、ユーザの検索意図が直接反映されている単語の識別が容易になる。
また、請求項5にかかる重要言語識別方法は、請求項4に記載の発明において、前記単語重要度算定工程は、前記検索語候補抽出工程で抽出された検索語候補の数が所定数を超える場合は、各検索語候補の出現頻度と、請求項4に記載の方法で重要語として認識された同一検索語候補の出現頻度累積値との間で所定の演算を行い、各検索語候補の重要度を算定することを特徴とする。
この請求項5に記載の発明によれば、検索条件が長文である場合であっても、ユーザの検索意図が反映されている単語の識別が容易になる。
また、請求項6にかかる重要言語識別方法は、請求項5に記載の発明において、さらに、前記検索語候補抽出工程で抽出された検索語候補の数が所定数以下の場合は、請求項4に記載の方法で同一レベルの重要語として認識された検索語候補をすべて検索語として選出し、前記検索語候補抽出工程で抽出された検索語候補の数が所定数を超える場合は、請求項5に記載の方法で算定された重要度が所定値以上の検索語候補を検索語として選出する、検索語選出工程を含むことを特徴とする。
この請求項6にかかる発明によれば、よりユーザの検索意図が反映された単語を検索語として選出することが可能になる。
また、請求項7にかかる重要言語識別プログラムは、請求項1〜6のいずれか一つに記載の重要語識別方法をコンピュータに実行させることを特徴とする。
この請求項7に記載の発明によれば、請求項1〜6のいずれか一つに記載の重要言語識別方法をコンピュータに実行させることができる。
また、請求項8にかかる重要言語識別装置は、ユーザが入力した検索条件を受け付ける検索条件受付手段と、前記検索条件受付手段で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出手段と、前記検索語候補抽出手段で抽出された検索語候補の重要度を算定する単語重要度算定手段と、データを記憶する記憶手段と、を備えることを特徴とする。
この請求項8に記載の発明によれば、抽出された検索語候補のうちユーザの検索意図を十分に反映しているものをその重要度により把握することができる。
また、請求項9にかかる重要言語識別装置は、請求項8に記載の発明において、前記検索条件は、人間が特別な訓練なしに自然に習得し使用できる自然言語により設定されることを特徴とする。
この請求項9に記載の発明によれば、自然言語により検索条件が設定されるため、不自然な言語を検索語として選出することが防止できる。
また、請求項10にかかる重要言語識別装置は、請求項8または9に記載の発明において、前記検索語候補抽出手段は、ユーザにより入力された検索条件を形態素解析によって単語に分割し、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補とすることを特徴とする。
この請求項10に記載の発明によれば、検索語として不要な単語を排除することができる。
また、請求項11にかかる重要言語識別装置は、請求項8〜10のいずれか一つに記載の発明において、前記単語重要度算定手段は、前記検索語候補抽出手段で抽出された検索語候補の数が所定数以下の場合は、抽出された検索語候補をすべて同一レベルの重要語として認識し、重要語と認識された検索語候補の出現頻度累積値を前記記憶手段に記憶することを特徴とする。
この請求項11に記載の発明によれば、ユーザの検索意図が直接反映されている単語の識別が容易になる。
また、請求項12にかかる重要言語識別装置は、請求項11に記載の発明において、前記単語重要度算定手段は、前記検索語候補抽出手段で抽出された検索語候補の数が所定数を超える場合は、各検索語候補の出現頻度と、請求項11に記載の重要言語識別装置で重要語として認識された同一検索語候補の出現頻度累積値との間で所定の演算を行い、各検索語候補の重要度を算定することを特徴とする。
この請求項12に記載の発明によれば、検索条件が長文である場合であっても、ユーザの検索意図が反映されている単語の識別が容易になる。
また、請求項13にかかる重要言語識別装置は、請求項12に記載の発明において、さらに、前記検索語候補抽出手段で抽出された検索語候補の数が所定数以下の場合は、請求項11に記載の重要言語識別装置において同一レベルの重要語として認識された検索語候補をすべて検索語として選出し、前記検索語候補抽出手段で抽出された検索語候補の数が所定数を超える場合は、請求項12に記載の重要言語識別装置において算定された重要度が所定値以上の検索語候補を検索語として選出する、検索語選出手段を備えることを特徴とする。
この請求項13に記載の発明によれば、よりユーザの検索意図が反映された単語を検索語として選出することが可能になる。
また、請求項14にかかる文書検索装置は、請求項13に記載の重要言語識別装置と、検索対象の文書データが格納されている文書データベースと、前記文書データベースに格納されている文書データに対して、前記重要言語識別装置で選出された検索語を適用して文書検索を行う文書検索手段と、を含み構成されていることを特徴とする。
この請求項14に記載の発明によれば、ユーザの検索意図が十分に反映させた検索語に基づく文書検索が可能になる。
また、請求項15にかかる文書検索装置は、請求項14に記載の発明において、さらに、前記検索語選出手段で選出された検索語の関連語候補を抽出し、この関連語候補の重要度を前記重要言語識別装置に算定させ、重要度の高い関連語候補を関連語として選出する関連語選出手段を備え、前記文書検索手段が、前記関連語選出手段で選出された関連語を適用して文書検索を行うことを特徴とする。
この請求項15に記載の発明によれば、さらに、精度の高い文書検索が可能になる。
また、請求項16にかかるキーワード抽出装置は、ユーザが入力した文章を受け付け、この文章に対して形態素解析を行いキーワード候補となる単語を抽出する入力文章受付手段と、請求項8〜13のいずれか一つに記載の重要言語識別装置と、前記重要言語識別装置によって算定された単語の重要度を参照して、前記キーワード候補として抽出された各単語の重要度を算出し、重要度の高い単語をキーワードとして抽出するキーワード抽出手段と、を含み構成されていることを特徴とする。
この請求項16に記載の発明によれば、ユーザの検索意図に合致したキーワード抽出が可能になる。
本発明にかかる重要言語識別方法および重要言語識別プログラム、重要言語識別装置によれば、短い検索条件で用いられた、ユーザが検索に不可欠と考える検索語を、長い検索条件においても重要とみなすことで、ユーザの検索意図が十分に反映された重要語を正確に識別できるという効果を奏する。さらに、この重要言語識別装置を文書検索装置に適用することで、ユーザの検索意図が十分に反映された検索語に基づく文書検索が可能になる。また、この重要言語識別装置をキーワード抽出装置に適用することで、ユーザの検索意図に合致したキーワード抽出ができる。
以下に添付図面を参照して、本発明にかかる重要言語識別方法および重要言語識別プログラム、重要言語識別装置、文書検索装置、キーワード抽出装置の好適な実施の形態を詳細に説明する。
(重要言語識別装置のハードウェア構成)
まず、本発明の実施の形態にかかる重要言語識別装置のハードウェア構成について説明する。図1は、この重要言語識別装置のハードウェア構成を示す図である。この重要言語識別装置100は、CPU101、ROM102、RAM103、ハードディスク104、入力手段105、表示手段106、記憶媒体読取手段107、および通信インターフェース(I/F)108が、バス109によって接続され構成されている。
CPU101は、装置全体を制御する。ROM102には、基本入出力プログラムが記憶されている。RAM103は、CPU101のワークエリアとして使用される。ハードディスク104は、CPU101の制御にしたがいデータの書き込み/読み出しを行う。入力手段105は、キーボードやマウス等からなり、文字、数字、データの入力や、表示手段106に表示されるカーソルの移動や範囲選択、あるいはウインドウの移動やサイズの変更等を行う。表示手段106は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報等のデータを表示する。記憶媒体読取手段107は、CPU101の制御にしたがって、着脱可能な記憶媒体であるCD/DVDディスク110からのデータの読み取りを制御する。通信インターフェース108は、ネットワーク200に接続され、このネットワーク200と重要言語識別装置100とのインターフェースとして機能する。
(重要言語識別装置を含むネットワーク構成)
次に、この重要言語識別装置を含むネットワーク構成を説明する。図2は、この重要言語識別装置を含むネットワーク構成を示す概略図である。図1に示したように、重要言語識別装置100は、ネットワーク200に接続可能な通信インターフェース108を備えている。そこで、図2に示すように、複数の重要言語識別装置100をネットワーク200に接続することで、ネットワーク200に接続されているサーバ201を仲介した各重要言語識別装置100間でのデータの送受信が可能になる。
(重要言語識別装置の機能的構成)
続いて、この重要言語識別装置の機能的構成について説明する。図3は、この重要言語識別装置の機能的構成を示すブロック図である。重要言語識別装置100は、検索条件受付部301、検索語選出部302、および単語重要度算定部303を含み構成される。検索条件受付部301は、ユーザが入力手段105から入力した検索条件を受け付ける。検索語選出部302は、検索条件受付部301が受け付けた検索条件を形態素解析によって単語に分割する。そして、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補として抽出する。単語重要度算定部303は、検索語選出部302で抽出された検索語候補の重要度(どの程度ユーザの検索意図が反映されているか)を算定する。そして、検索語選出部302は、単語重要度算定部303が算定した各検索語候補の重要度に基づいて、適切な検索語を選出する。
ところで、この重要言語識別装置100において検索語候補の重要度を算定する際、次のことがいえる。すなわち、検索条件受付部301で受け付ける検索条件が短い場合(例えば、検索条件が数語程度からなる文節の形式である場合等)、検索条件中の各単語のほとんどが、ユーザが吟味の上、検索に不要な単語を除去し不可欠であるとみなした重要語であると考えられる。すなわち、検索条件中の各単語はユーザの検索意図が直接反映されている蓋然性が非常に高い。一方、検索条件が長い場合(例えば、検索条件が多く単語を含む文章全体である場合等)、そこに含まれる単語をすべて検索語とすることは、検索のためにはさほど重要でないかまたは不要である単語を含んでいる可能性が高いため、好ましくない。したがって、検索条件として入力された単語群のなかから重要である単語のみを検索語として選出することが好ましい。
そこで、重要言語識別装置100では、検索条件受付部301が受け付けた検索条件が短く、検索語選出部302で抽出された検索語候補(単語)数が所定数(例えば3〜5語程度)以下の場合は、単語重要度算定部303が、それら検索語候補をすべて同一レベルの重要語とみなす。加えて、単語重要度算定部303は、重要語と認識された検索語候補の出現頻度を把握し、把握結果(累積値)をハードディスク104に記憶しておく。
一方、検索条件受付部301が受け付けた検索条件が長く、検索語選出部302で抽出された検索語候補数が所定数を超える場合は、単語重要度算定部303は、まず、長い検索条件から検索語候補として新たに検索語選出部302において抽出された各単語の出現頻度を算出する(第1段階)。次に、単語重要度算定部303は、第1段階で算出された各単語の出現頻度と、前記短い検索条件下で重要語と認識された同一検索語候補の出現頻度(累積値)との間で所定の演算(例えば、加法や乗法等)を行い(第2段階)、この結果を各検索語候補の重要度とする。すなわち、本発明の重要言語識別装置は、検索語候補の数が所定数を超える場合には、前記第1段階および前記第2段階の処理を行って、各検索語候補の重要度を求める。
そして、検索語選出部302は、前記検索語候補が所定数以下の場合は、単語重要度算定部303が同一レベルの重要語とみなしたすべての検索語候補を検索語として選出する。一方、前記検索語候補が所定数を超える場合は、単語重要度算定部303が算定した重要度に基づき前記検索語候補のなかから所定値以上の重要度を有するものを検索語として選出する。なお、所定値以上の重要度とは、例えば上位3〜5位までというように、ユーザがあらかじめ設定するものとする。また、この場合は、検索語として選出された単語やその出現頻度をハードディスク104に記憶させることはしない。長い検索条件において選出された検索語は、ユーザの意図が直接反映されているわけではないからである。
例えば、第1の検索条件として、「サーバー」、「クライアント」が入力されたとする。この第1の検索条件は2語であるため、短い検索条件となり、各単語の出現頻度として「サーバー」=1、「クライアント」=1が算出され、各値がそのまま各単語の出現頻度累積値として記憶される。
次に、第2の検索条件として、「サーバー」、「クライアント」、「JAVA(R)」が入力されたとする。この第2の検索条件も3語であるため、短い検索条件となり、各単語の出現頻度として「サーバー」=1、「クライアント」=1、「JAVA(R)」=1が算出される。そして、各単語の出現頻度の累積値として、「サーバー」=2、「クライアント」=2、「JAVA(R)」=1が記憶される。
さらに、第3の検索条件として、「サーバー」、「クライアント」、「JAVA(R)」、「インターネット」、「ウェブ」が入力されたとする。この第3の検索条件は5語であるため、長い検索条件となる。したがって、まず第1段階として第3の検索条件のみにおける各単語の出現頻度として、「サーバー」=1、「クライアント」=1、「JAVA(R)」=1、「インターネット」=1、「ウェブ」=1が算出される。続いて、第2段階として、この第3の検索条件のみから求められた各単語の出現頻度と、同一単語の出現頻度の累積値との間で所定の演算を行い、これを各検索語候補の重要度とする。ここでは、各検索語候補の重要度を求めるための演算に乗法を用いるとすると、「サーバー」=2、「クライアント」=2、「JAVA(R)」=1、「インターネット」=0、「ウェブ」=0が各検索語候補の重要度となる。
最後に、検索語が選出される。ここに示した例では、各検索語候補の重要度は、「サーバー」=2、「クライアント」=2、「JAVA(R)」=1、「インターネット」=0、「ウェブ」=0であるので、重要度上位3位までの検索語候補を検索語として選出するとすれば、「サーバー」、「クライアント」、「JAVA(R)」が検索語として選出されることになる。
このようにすることにより、本発明の重要言語識別装置は、ユーザの検索意図を十分反映された単語を検索語として選出することが可能になる。
(重要語識別処理の手順)
次に、本発明の重要言語識別装置を用いた重要言語識別処理の手順について説明する。図4は、この重要言語識別処理の手順を示すフローチャートである。
まず、検索条件受付部301が、入力手段105からユーザにより入力された検索条件を受け付ける(ステップS401)。ここで入力される検索条件は、人間が特別な訓練なしに自然に習得し使用できる自然言語により設定される。
次に、検索語選出部302が、検索条件受付部301によって受け付けられた検索条件から検索語候補を抽出する(ステップS402)。具体的には、ユーザにより入力された検索条件を形態素解析によって単語に分割する。そして、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補とする。
続いて、単語重要度算定部303が、検索語選出部302により抽出された検索語候補の数が所定数以下か否かを判断する(ステップS403)。基準となる検索語候補の数はユーザが任意に設定できるが、一般的には3〜5語程度が好ましい。抽出された検索語候補の数が所定数以下である場合(ステップS403:Yes)は、単語重要度算定部303が当該検索語候補をすべて重要語とみなし、重要語とされた各検索語候補の出現頻度(累積値)をハードディスク104に記憶する(ステップS404)。そして、検索語選出部302は、単語重要度算定部303が重要語とみなした検索語候補をすべて検索語として選出し(ステップS405)、処理を終了する。一方、抽出された検索語候補の数が所定数を超える場合(ステップS403:No)は、ステップS406へ進む。
ステップS403において、抽出された検索語候補の数が所定数を超える場合は(ステップS403:No)、単語重要度算定部303が前述した方法で検索語候補の重要度を算出する(ステップS406)。そして、検索語選出部302が、単語重要度算定部303が算定した検索語候補の重要度(例えば、上位3〜5位程度)に基づき、実際に用いる検索語を選出し(ステップS405)、処理を終了する。
本発明の重要言語識別方法では、以上のような手順を経ることにより、ユーザの検索意図が十分反映された単語を検索語として選出することが可能になる。
(文書検索装置)
次に、本発明の重要言語識別装置を備えた文書検索装置について説明する。図5は、この文書検索装置の機能的構成の一例を示すブロック図である。この文書検出装置は、重要言語識別装置100、文書検索部501、および文書データベース502を含み構成される。そして、文書データベース502に格納されている文書データに対して、前述したような処理を経て重要言語識別装置100で選出された検索語をもとに公知の方法により文書検索を行う。このように、重要言語識別装置100で選出された検索語に基づいた文書検索を行うことで、よりユーザの検索意図に合致した文書検索が可能になる。
また、図5に示した文書検索装置において、検索語と関連する単語を関連語として選出し、この関連語による再検索を実行させることもできる。図6は、関連語による検索を可能とする文書検索装置の機能的構成を示すブロック図である。この文書検索装置は、図5に示した構成に加え、検索語選出部302で選出された検索語の関連語候補を抽出し、この関連語候補の重要度を単語重要語算定部303に算定させ、重要度の高い関連語候補を関連語として選出する関連語選出部601を備えている。そして、文書検索部501がその関連語に基づいて再検索を行う。このようにすることで、さらにユーザの検索意図に合致した文書検索が可能になる。
(キーワード抽出装置)
続いて、本発明の重要言語識別装置を備えたキーワード抽出装置について説明する。図7は、このキーワード抽出装置の機能的構成の一例を示すブロック図である。このキーワード抽出装置は、重要言語識別装置100、入力文書受付部701、およびキーワード抽出部702を含み構成される。このキーワード抽出装置は、文書を検索するのではなく、入力された文章からキーワードを抽出するところが、図5および図6に示した文書検索装置とは異なる。このキーワード抽出装置では、まず、入力文書受付部701において、入力文章から形態素解析によりキーワード候補となる単語を抽出する。そして、キーワード抽出部702において、重要言語識別装置100によって算定された単語の重要度を参照して、前記キーワード候補として抽出された各単語の重要度を算定し、重要度の高い単語をキーワードとして抽出する。このようにすることで、よりユーザの意図に合致したキーワード抽出が可能になる。
以上説明したように、本発明の重要言語識別方法および重要言語識別プログラム、重要言語識別装置によれば、短い検索条件で用いられた、ユーザが検索に不可欠と考える検索語を、長い検索条件においても重要とみなすことで、ユーザの検索意図が十分に反映された重要語を正確に識別できる。さらに、この重要言語識別装置を文書検索装置に適用することで、ユーザの検索意図が十分に反映された検索語に基づく文書検索が可能になる。また、この重要言語識別装置をキーワード抽出装置に適用することで、ユーザの検索意図に合致したキーワード抽出ができる。
なお、本実施の形態で説明した重要言語識別方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、本発明にかかる重要言語識別方法および重要言語識別プログラム、重要語識別装置は、ユーザが検索に不可欠と考える重要語をより正確に識別することに有用であり、特に、文書検索装置、キーワード抽出装置に適している。
本発明の実施の形態にかかる重要言語識別装置のハードウェア構成を示す図である。 重要言語識別装置を含むネットワーク構成を示す概略図である。 重要言語識別装置の機能的構成を示すブロック図である。 重要言語識別処理の手順を示すフローチャートである。 重要言語識別装置を備えた文書検索装置の機能的構成の一例を示すブロック図である。 重要言語識別装置を備えた文書検索装置の機能的構成の一例を示すブロック図である。 重要言語識別装置を備えたキーワード抽出装置の機能的構成の一例を示すブロック図である。
符号の説明
100 重要言語識別装置
101 CPU
102 ROM
103 RAM
104 ハードディスク
105 入力手段
106 表示手段
107 記憶媒体読取手段
108 通信インターフェース(I/F)
109 バス
110 CD/DVDディスク
200 ネットワーク
201 サーバ
301 検索条件受付部
302 検索語選出部
303 単語重要度算定部
501 文書検索部
502 文書データベース
601 関連語選出部
701 入力文書受付部
702 キーワード抽出部

Claims (16)

  1. ユーザが入力した検索条件を受け付ける検索条件受付工程と、
    前記検索条件受付工程で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出工程と、
    前記検索語候補抽出工程で抽出された検索語候補の重要度を算定する単語重要度算定工程と、
    を含むことを特徴とする重要言語識別方法。
  2. 前記検索条件は、人間が特別な訓練なしに自然に習得し使用できる自然言語により設定されることを特徴とする請求項1に記載の重要言語識別方法。
  3. 前記検索語候補抽出工程は、ユーザにより入力された検索条件を形態素解析によって単語に分割し、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補とすることを特徴とする請求項1または2に記載の重要言語識別方法。
  4. 前記単語重要度算定工程は、前記検索語候補抽出工程で抽出された検索語候補の数が所定数以下の場合は、抽出された検索語候補をすべて同一レベルの重要語として認識し、重要語と認識された検索語候補の出現頻度累積値を記憶することを特徴とする請求項1〜3のいずれか一つに記載の重要言語識別方法。
  5. 前記単語重要度算定工程は、前記検索語候補抽出工程で抽出された検索語候補の数が所定数を超える場合は、各検索語候補の出現頻度と、請求項4に記載の方法で重要語として認識された同一検索語候補の出現頻度累積値との間で所定の演算を行い、各検索語候補の重要度を算定することを特徴とする請求項4に記載の重要言語識別方法。
  6. さらに、前記検索語候補抽出工程で抽出された検索語候補の数が所定数以下の場合は、請求項4に記載の方法で同一レベルの重要語として認識された検索語候補をすべて検索語として選出し、
    前記検索語候補抽出工程で抽出された検索語候補の数が所定数を超える場合は、請求項5に記載の方法で算定された重要度が所定値以上の検索語候補を検索語として選出する、検索語選出工程を含むことを特徴とする請求項5に記載の重要言語識別方法。
  7. 請求項1〜6のいずれか一つに記載の重要言語識別方法をコンピュータに実行させることを特徴とする重要言語識別プログラム。
  8. ユーザが入力した検索条件を受け付ける検索条件受付手段と、
    前記検索条件受付手段で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出手段と、
    前記検索語候補抽出手段で抽出された検索語候補の重要度を算定する単語重要度算定手段と、
    データを記憶する記憶手段と、
    を備えることを特徴とする重要言語識別装置。
  9. 前記検索条件は、人間が特別な訓練なしに自然に習得し使用できる自然言語により設定されることを特徴とする請求項8に記載の重要言語識別装置。
  10. 前記検索語候補抽出手段は、ユーザにより入力された検索条件を形態素解析によって単語に分割し、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補とすることを特徴とする請求項8または9に記載の重要言語識別装置。
  11. 前記単語重要度算定手段は、前記検索語候補抽出手段で抽出された検索語候補の数が所定数以下の場合は、抽出された検索語候補をすべて同一レベルの重要語として認識し、重要語と認識された検索語候補の出現頻度累積値を前記記憶手段に記憶することを特徴とする請求項8〜10のいずれか一つに記載の重要言語識別装置。
  12. 前記単語重要度算定手段は、前記検索語候補抽出手段で抽出された検索語候補の数が所定数を超える場合は、各検索語候補の出現頻度と、請求項11に記載の重要言語識別装置で重要語として認識された同一検索語候補の出現頻度累積値との間で所定の演算を行い、各検索語候補の重要度を算定することを特徴とする請求項11に記載の重要言語識別装置。
  13. さらに、前記検索語候補抽出手段で抽出された検索語候補の数が所定数以下の場合は、請求項11に記載の重要言語識別装置において同一レベルの重要語として認識された検索語候補をすべて検索語として選出し、
    前記検索語候補抽出手段で抽出された検索語候補の数が所定数を超える場合は、請求項12に記載の重要言語識別装置において算定された重要度が所定値以上の検索語候補を検索語として選出する、検索語選出手段を備えていることを特徴とする請求項12に記載の重要言語識別装置。
  14. 請求項13に記載の重要言語識別装置と、
    検索対象の文書データが格納されている文書データベースと、
    前記文書データベースに格納されている文書データに対して、前記重要言語識別装置で選出された検索語を適用して文書検索を行う文書検索手段と、
    を備えることを特徴とする文書検索装置。
  15. さらに、前記検索語選出手段で選出された検索語の関連語候補を抽出し、この関連語候補の重要度を前記重要言語識別装置に算定させ、重要度の高い関連語候補を関連語として選出する関連語選出手段を備え、
    前記文書検索手段が、前記関連語選出手段で選出された関連語を適用して文書検索を行うことを特徴とする請求項14に記載の文書検索装置。
  16. ユーザが入力した文章を受け付け、この文章に対して形態素解析を行いキーワード候補となる単語を抽出する入力文章受付手段と、
    請求項8〜13のいずれか一つに記載の重要言語識別装置と、
    前記重要言語識別装置によって算定された単語の重要度を参照して、前記キーワード候補として抽出された各単語の重要度を算定し、重要度の高い単語をキーワードとして抽出するキーワード抽出手段と、
    を備えることを特徴とするキーワード抽出装置。

JP2004040181A 2004-02-17 2004-02-17 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 Expired - Fee Related JP4574186B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004040181A JP4574186B2 (ja) 2004-02-17 2004-02-17 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004040181A JP4574186B2 (ja) 2004-02-17 2004-02-17 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置

Publications (2)

Publication Number Publication Date
JP2005234688A true JP2005234688A (ja) 2005-09-02
JP4574186B2 JP4574186B2 (ja) 2010-11-04

Family

ID=35017608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004040181A Expired - Fee Related JP4574186B2 (ja) 2004-02-17 2004-02-17 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置

Country Status (1)

Country Link
JP (1) JP4574186B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276769A (ja) * 2007-04-26 2008-11-13 Nhn Corp キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム
JP2012083543A (ja) * 2010-10-12 2012-04-26 Nec Informatec Systems Ltd 言語モデル生成装置、その方法及びそのプログラム
US9128982B2 (en) 2010-12-23 2015-09-08 Nhn Corporation Search system and search method for recommending reduced query

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208588A (ja) * 1992-08-14 1994-07-26 Ricoh Co Ltd 文書検索方式
JPH08314964A (ja) * 1995-05-19 1996-11-29 Matsushita Electric Ind Co Ltd 索引型式作成装置
JPH1173419A (ja) * 1997-08-28 1999-03-16 N T T Data:Kk 電子文書の検索方法及び装置
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
JP2002073681A (ja) * 2000-08-28 2002-03-12 Hitachi Ltd 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体
JP2002099573A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2002140357A (ja) * 2000-11-06 2002-05-17 Ricoh Co Ltd 文書検索装置及び文書検索方法
JP2002189734A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 検索語抽出装置および検索語抽出方法
JP2002245062A (ja) * 2001-02-14 2002-08-30 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2003162531A (ja) * 2001-11-27 2003-06-06 Matsushita Electric Works Ltd 文書検索システムおよび文書検索方法
JP2003208433A (ja) * 2002-01-10 2003-07-25 Mitsubishi Electric Corp 電子ファイリングシステム及びその検索インデックス作成方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208588A (ja) * 1992-08-14 1994-07-26 Ricoh Co Ltd 文書検索方式
JPH08314964A (ja) * 1995-05-19 1996-11-29 Matsushita Electric Ind Co Ltd 索引型式作成装置
JPH1173419A (ja) * 1997-08-28 1999-03-16 N T T Data:Kk 電子文書の検索方法及び装置
JP2000250585A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
JP2002073681A (ja) * 2000-08-28 2002-03-12 Hitachi Ltd 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体
JP2002099573A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法及び記録媒体
JP2002140357A (ja) * 2000-11-06 2002-05-17 Ricoh Co Ltd 文書検索装置及び文書検索方法
JP2002189734A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 検索語抽出装置および検索語抽出方法
JP2002245062A (ja) * 2001-02-14 2002-08-30 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2003162531A (ja) * 2001-11-27 2003-06-06 Matsushita Electric Works Ltd 文書検索システムおよび文書検索方法
JP2003208433A (ja) * 2002-01-10 2003-07-25 Mitsubishi Electric Corp 電子ファイリングシステム及びその検索インデックス作成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008276769A (ja) * 2007-04-26 2008-11-13 Nhn Corp キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム
JP2012083543A (ja) * 2010-10-12 2012-04-26 Nec Informatec Systems Ltd 言語モデル生成装置、その方法及びそのプログラム
US8831945B2 (en) 2010-10-12 2014-09-09 Nec Informatec Systems, Ltd. Language model generating device, method thereof, and recording medium storing program thereof
US9128907B2 (en) 2010-10-12 2015-09-08 Nec Informatec Systems, Ltd. Language model generating device, method thereof, and recording medium storing program thereof
US9128982B2 (en) 2010-12-23 2015-09-08 Nhn Corporation Search system and search method for recommending reduced query

Also Published As

Publication number Publication date
JP4574186B2 (ja) 2010-11-04

Similar Documents

Publication Publication Date Title
JP6095621B2 (ja) 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置
JP5169816B2 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006178599A (ja) 文書検索装置および方法
JP2006251935A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5189413B2 (ja) 音声データ検索システム
JP4574186B2 (ja) 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP2005141428A (ja) 単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP4525224B2 (ja) ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN109710844A (zh) 基于搜索引擎的快速准确定位文件的方法和设备
JP2002099573A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP2017102976A (ja) 文献解析装置、文献解析方法およびプログラム
JP2004152041A (ja) 重要語句抽出装置、プログラムおよび記録媒体
JP4135467B2 (ja) 情報処理装置、システムおよびプログラム
JP4703676B2 (ja) 検索データベースの自動索引語追加方法及びシステム
JP2003173335A (ja) 自然言語対話装置及び方法並びに記憶媒体
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070105

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100810

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100818

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees