JP2005234688A - 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 - Google Patents
重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 Download PDFInfo
- Publication number
- JP2005234688A JP2005234688A JP2004040181A JP2004040181A JP2005234688A JP 2005234688 A JP2005234688 A JP 2005234688A JP 2004040181 A JP2004040181 A JP 2004040181A JP 2004040181 A JP2004040181 A JP 2004040181A JP 2005234688 A JP2005234688 A JP 2005234688A
- Authority
- JP
- Japan
- Prior art keywords
- search
- word
- search word
- important
- language identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明の重要言語識別方法は、ユーザが入力した検索条件を受け付ける検索条件受付工程(ステップS401)と、前記検索条件受付工程で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出工程(ステップS402)と、前記検索語候補抽出工程で抽出された検索語候補の重要度を算定する単語重要度算定工程(ステップS404,ステップS406)と、を含むことを特徴とする。
【選択図】 図4
Description
まず、本発明の実施の形態にかかる重要言語識別装置のハードウェア構成について説明する。図1は、この重要言語識別装置のハードウェア構成を示す図である。この重要言語識別装置100は、CPU101、ROM102、RAM103、ハードディスク104、入力手段105、表示手段106、記憶媒体読取手段107、および通信インターフェース(I/F)108が、バス109によって接続され構成されている。
次に、この重要言語識別装置を含むネットワーク構成を説明する。図2は、この重要言語識別装置を含むネットワーク構成を示す概略図である。図1に示したように、重要言語識別装置100は、ネットワーク200に接続可能な通信インターフェース108を備えている。そこで、図2に示すように、複数の重要言語識別装置100をネットワーク200に接続することで、ネットワーク200に接続されているサーバ201を仲介した各重要言語識別装置100間でのデータの送受信が可能になる。
続いて、この重要言語識別装置の機能的構成について説明する。図3は、この重要言語識別装置の機能的構成を示すブロック図である。重要言語識別装置100は、検索条件受付部301、検索語選出部302、および単語重要度算定部303を含み構成される。検索条件受付部301は、ユーザが入力手段105から入力した検索条件を受け付ける。検索語選出部302は、検索条件受付部301が受け付けた検索条件を形態素解析によって単語に分割する。そして、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補として抽出する。単語重要度算定部303は、検索語選出部302で抽出された検索語候補の重要度(どの程度ユーザの検索意図が反映されているか)を算定する。そして、検索語選出部302は、単語重要度算定部303が算定した各検索語候補の重要度に基づいて、適切な検索語を選出する。
次に、本発明の重要言語識別装置を用いた重要言語識別処理の手順について説明する。図4は、この重要言語識別処理の手順を示すフローチャートである。
次に、本発明の重要言語識別装置を備えた文書検索装置について説明する。図5は、この文書検索装置の機能的構成の一例を示すブロック図である。この文書検出装置は、重要言語識別装置100、文書検索部501、および文書データベース502を含み構成される。そして、文書データベース502に格納されている文書データに対して、前述したような処理を経て重要言語識別装置100で選出された検索語をもとに公知の方法により文書検索を行う。このように、重要言語識別装置100で選出された検索語に基づいた文書検索を行うことで、よりユーザの検索意図に合致した文書検索が可能になる。
続いて、本発明の重要言語識別装置を備えたキーワード抽出装置について説明する。図7は、このキーワード抽出装置の機能的構成の一例を示すブロック図である。このキーワード抽出装置は、重要言語識別装置100、入力文書受付部701、およびキーワード抽出部702を含み構成される。このキーワード抽出装置は、文書を検索するのではなく、入力された文章からキーワードを抽出するところが、図5および図6に示した文書検索装置とは異なる。このキーワード抽出装置では、まず、入力文書受付部701において、入力文章から形態素解析によりキーワード候補となる単語を抽出する。そして、キーワード抽出部702において、重要言語識別装置100によって算定された単語の重要度を参照して、前記キーワード候補として抽出された各単語の重要度を算定し、重要度の高い単語をキーワードとして抽出する。このようにすることで、よりユーザの意図に合致したキーワード抽出が可能になる。
101 CPU
102 ROM
103 RAM
104 ハードディスク
105 入力手段
106 表示手段
107 記憶媒体読取手段
108 通信インターフェース(I/F)
109 バス
110 CD/DVDディスク
200 ネットワーク
201 サーバ
301 検索条件受付部
302 検索語選出部
303 単語重要度算定部
501 文書検索部
502 文書データベース
601 関連語選出部
701 入力文書受付部
702 キーワード抽出部
Claims (16)
- ユーザが入力した検索条件を受け付ける検索条件受付工程と、
前記検索条件受付工程で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出工程と、
前記検索語候補抽出工程で抽出された検索語候補の重要度を算定する単語重要度算定工程と、
を含むことを特徴とする重要言語識別方法。 - 前記検索条件は、人間が特別な訓練なしに自然に習得し使用できる自然言語により設定されることを特徴とする請求項1に記載の重要言語識別方法。
- 前記検索語候補抽出工程は、ユーザにより入力された検索条件を形態素解析によって単語に分割し、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補とすることを特徴とする請求項1または2に記載の重要言語識別方法。
- 前記単語重要度算定工程は、前記検索語候補抽出工程で抽出された検索語候補の数が所定数以下の場合は、抽出された検索語候補をすべて同一レベルの重要語として認識し、重要語と認識された検索語候補の出現頻度累積値を記憶することを特徴とする請求項1〜3のいずれか一つに記載の重要言語識別方法。
- 前記単語重要度算定工程は、前記検索語候補抽出工程で抽出された検索語候補の数が所定数を超える場合は、各検索語候補の出現頻度と、請求項4に記載の方法で重要語として認識された同一検索語候補の出現頻度累積値との間で所定の演算を行い、各検索語候補の重要度を算定することを特徴とする請求項4に記載の重要言語識別方法。
- さらに、前記検索語候補抽出工程で抽出された検索語候補の数が所定数以下の場合は、請求項4に記載の方法で同一レベルの重要語として認識された検索語候補をすべて検索語として選出し、
前記検索語候補抽出工程で抽出された検索語候補の数が所定数を超える場合は、請求項5に記載の方法で算定された重要度が所定値以上の検索語候補を検索語として選出する、検索語選出工程を含むことを特徴とする請求項5に記載の重要言語識別方法。 - 請求項1〜6のいずれか一つに記載の重要言語識別方法をコンピュータに実行させることを特徴とする重要言語識別プログラム。
- ユーザが入力した検索条件を受け付ける検索条件受付手段と、
前記検索条件受付手段で受け付けられた検索条件から検索語候補を抽出する検索語候補抽出手段と、
前記検索語候補抽出手段で抽出された検索語候補の重要度を算定する単語重要度算定手段と、
データを記憶する記憶手段と、
を備えることを特徴とする重要言語識別装置。 - 前記検索条件は、人間が特別な訓練なしに自然に習得し使用できる自然言語により設定されることを特徴とする請求項8に記載の重要言語識別装置。
- 前記検索語候補抽出手段は、ユーザにより入力された検索条件を形態素解析によって単語に分割し、分割された単語群から助詞等検索に不適な単語を不要語として取り除き、残った単語を検索語候補とすることを特徴とする請求項8または9に記載の重要言語識別装置。
- 前記単語重要度算定手段は、前記検索語候補抽出手段で抽出された検索語候補の数が所定数以下の場合は、抽出された検索語候補をすべて同一レベルの重要語として認識し、重要語と認識された検索語候補の出現頻度累積値を前記記憶手段に記憶することを特徴とする請求項8〜10のいずれか一つに記載の重要言語識別装置。
- 前記単語重要度算定手段は、前記検索語候補抽出手段で抽出された検索語候補の数が所定数を超える場合は、各検索語候補の出現頻度と、請求項11に記載の重要言語識別装置で重要語として認識された同一検索語候補の出現頻度累積値との間で所定の演算を行い、各検索語候補の重要度を算定することを特徴とする請求項11に記載の重要言語識別装置。
- さらに、前記検索語候補抽出手段で抽出された検索語候補の数が所定数以下の場合は、請求項11に記載の重要言語識別装置において同一レベルの重要語として認識された検索語候補をすべて検索語として選出し、
前記検索語候補抽出手段で抽出された検索語候補の数が所定数を超える場合は、請求項12に記載の重要言語識別装置において算定された重要度が所定値以上の検索語候補を検索語として選出する、検索語選出手段を備えていることを特徴とする請求項12に記載の重要言語識別装置。 - 請求項13に記載の重要言語識別装置と、
検索対象の文書データが格納されている文書データベースと、
前記文書データベースに格納されている文書データに対して、前記重要言語識別装置で選出された検索語を適用して文書検索を行う文書検索手段と、
を備えることを特徴とする文書検索装置。 - さらに、前記検索語選出手段で選出された検索語の関連語候補を抽出し、この関連語候補の重要度を前記重要言語識別装置に算定させ、重要度の高い関連語候補を関連語として選出する関連語選出手段を備え、
前記文書検索手段が、前記関連語選出手段で選出された関連語を適用して文書検索を行うことを特徴とする請求項14に記載の文書検索装置。 - ユーザが入力した文章を受け付け、この文章に対して形態素解析を行いキーワード候補となる単語を抽出する入力文章受付手段と、
請求項8〜13のいずれか一つに記載の重要言語識別装置と、
前記重要言語識別装置によって算定された単語の重要度を参照して、前記キーワード候補として抽出された各単語の重要度を算定し、重要度の高い単語をキーワードとして抽出するキーワード抽出手段と、
を備えることを特徴とするキーワード抽出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004040181A JP4574186B2 (ja) | 2004-02-17 | 2004-02-17 | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004040181A JP4574186B2 (ja) | 2004-02-17 | 2004-02-17 | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005234688A true JP2005234688A (ja) | 2005-09-02 |
JP4574186B2 JP4574186B2 (ja) | 2010-11-04 |
Family
ID=35017608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004040181A Expired - Fee Related JP4574186B2 (ja) | 2004-02-17 | 2004-02-17 | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4574186B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008276769A (ja) * | 2007-04-26 | 2008-11-13 | Nhn Corp | キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム |
JP2012083543A (ja) * | 2010-10-12 | 2012-04-26 | Nec Informatec Systems Ltd | 言語モデル生成装置、その方法及びそのプログラム |
US9128982B2 (en) | 2010-12-23 | 2015-09-08 | Nhn Corporation | Search system and search method for recommending reduced query |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208588A (ja) * | 1992-08-14 | 1994-07-26 | Ricoh Co Ltd | 文書検索方式 |
JPH08314964A (ja) * | 1995-05-19 | 1996-11-29 | Matsushita Electric Ind Co Ltd | 索引型式作成装置 |
JPH1173419A (ja) * | 1997-08-28 | 1999-03-16 | N T T Data:Kk | 電子文書の検索方法及び装置 |
JP2000250585A (ja) * | 1999-02-25 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
JP2002073681A (ja) * | 2000-08-28 | 2002-03-12 | Hitachi Ltd | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
JP2002099573A (ja) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び記録媒体 |
JP2002140357A (ja) * | 2000-11-06 | 2002-05-17 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
JP2002189734A (ja) * | 2000-12-21 | 2002-07-05 | Ricoh Co Ltd | 検索語抽出装置および検索語抽出方法 |
JP2002245062A (ja) * | 2001-02-14 | 2002-08-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2003162531A (ja) * | 2001-11-27 | 2003-06-06 | Matsushita Electric Works Ltd | 文書検索システムおよび文書検索方法 |
JP2003208433A (ja) * | 2002-01-10 | 2003-07-25 | Mitsubishi Electric Corp | 電子ファイリングシステム及びその検索インデックス作成方法 |
-
2004
- 2004-02-17 JP JP2004040181A patent/JP4574186B2/ja not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208588A (ja) * | 1992-08-14 | 1994-07-26 | Ricoh Co Ltd | 文書検索方式 |
JPH08314964A (ja) * | 1995-05-19 | 1996-11-29 | Matsushita Electric Ind Co Ltd | 索引型式作成装置 |
JPH1173419A (ja) * | 1997-08-28 | 1999-03-16 | N T T Data:Kk | 電子文書の検索方法及び装置 |
JP2000250585A (ja) * | 1999-02-25 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
JP2002073681A (ja) * | 2000-08-28 | 2002-03-12 | Hitachi Ltd | 類似文書検索方法および装置および、類似文書検索方法のためのプログラムが記録された記憶媒体 |
JP2002099573A (ja) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び記録媒体 |
JP2002140357A (ja) * | 2000-11-06 | 2002-05-17 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
JP2002189734A (ja) * | 2000-12-21 | 2002-07-05 | Ricoh Co Ltd | 検索語抽出装置および検索語抽出方法 |
JP2002245062A (ja) * | 2001-02-14 | 2002-08-30 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2003162531A (ja) * | 2001-11-27 | 2003-06-06 | Matsushita Electric Works Ltd | 文書検索システムおよび文書検索方法 |
JP2003208433A (ja) * | 2002-01-10 | 2003-07-25 | Mitsubishi Electric Corp | 電子ファイリングシステム及びその検索インデックス作成方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008276769A (ja) * | 2007-04-26 | 2008-11-13 | Nhn Corp | キーワード提供範囲に基づいてキーワードを提供する方法およびそのシステム |
JP2012083543A (ja) * | 2010-10-12 | 2012-04-26 | Nec Informatec Systems Ltd | 言語モデル生成装置、その方法及びそのプログラム |
US8831945B2 (en) | 2010-10-12 | 2014-09-09 | Nec Informatec Systems, Ltd. | Language model generating device, method thereof, and recording medium storing program thereof |
US9128907B2 (en) | 2010-10-12 | 2015-09-08 | Nec Informatec Systems, Ltd. | Language model generating device, method thereof, and recording medium storing program thereof |
US9128982B2 (en) | 2010-12-23 | 2015-09-08 | Nhn Corporation | Search system and search method for recommending reduced query |
Also Published As
Publication number | Publication date |
---|---|
JP4574186B2 (ja) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6095621B2 (ja) | 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 | |
JP5169816B2 (ja) | 質問回答装置、質問回答方法および質問回答用プログラム | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP4935243B2 (ja) | 検索プログラム、情報検索装置及び情報検索方法 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP5189413B2 (ja) | 音声データ検索システム | |
JP2006251935A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP4574186B2 (ja) | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP5285491B2 (ja) | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP2005141428A (ja) | 単語列抽出方法、装置及び単語列抽出プログラムを記録した記録媒体 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
JP4525224B2 (ja) | ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置 | |
JP2007011892A (ja) | 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP2002099573A (ja) | 類似文書検索装置、類似文書検索方法及び記録媒体 | |
JP2004152041A (ja) | 重要語句抽出装置、プログラムおよび記録媒体 | |
JP4135467B2 (ja) | 情報処理装置、システムおよびプログラム | |
JP4703676B2 (ja) | 検索データベースの自動索引語追加方法及びシステム | |
JP2003173335A (ja) | 自然言語対話装置及び方法並びに記憶媒体 | |
JP2000090110A (ja) | 全文検索方法、装置、および全文検索プログラムを記録した記録媒体 | |
JP5944368B2 (ja) | 情報更新装置、情報更新方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070105 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090929 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100316 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100810 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100818 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |