JP2007102501A - 単語間関連度算出方法及び装置 - Google Patents
単語間関連度算出方法及び装置 Download PDFInfo
- Publication number
- JP2007102501A JP2007102501A JP2005291798A JP2005291798A JP2007102501A JP 2007102501 A JP2007102501 A JP 2007102501A JP 2005291798 A JP2005291798 A JP 2005291798A JP 2005291798 A JP2005291798 A JP 2005291798A JP 2007102501 A JP2007102501 A JP 2007102501A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- frequency
- document
- appearance frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録し、出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する。
【選択図】 図1
Description
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し(ステップ1)、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新ステップ(ステップ3)と、
出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出ステップ(ステップ4)と、を行う。
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出ステップ(ステップ2)を更に行う。
単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、出現頻度と同様に、減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新ステップ(ステップ3)を更に行い、
関連度算出ステップ(ステップ4)において、
出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を最新関連度記憶手段に記録する。
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段204から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段204に記録する出現頻度更新手段203と、
出現頻度記憶手段204から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段210に記録する関連度算出手段209と、を有する。
直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出手段を更に有する。
単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、出現頻度と同様に、減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新手段を更に有し、
関連度算出手段209は、
出現頻度記憶手段204から単語並びに該単語の出現頻度の組を取得するのに加え、共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を最新関連度記憶手段210に記録する手段を有する。
図3は、本発明の第1の実施の形態における単語間関連度算出装置の構成を示す。
図4は、本発明の第1の実施の形態における動作のフローチャートである。
次に、出現頻度更新部203の処理を詳細に説明する。
次に、上記の共起頻度更新部206の処理を詳細に説明する。
次に、関連度算出部209の処理を詳細に説明する。
図16は、本発明の第2の実施の形態における単語間関連度算出装置の構成を示す。
本実施の形態では、全体量を逐次更新する処理例を示すが、算出する全体量Dは第1の実施の形態における全体量と同一の値である。第1番目の文書を処理する時点では、D’は0と見做し、更新後の全体量を1とする。
図18は、本発明の第2の実施の形態における減衰定数算出部の処理の流れを示す。
図20は、本発明の第2の実施の形態における関連度算出部の処理を示す。
図21は、本発明の第3の実施の形態における単語間関連度算出装置の構成を示す。
図24は、本発明の第3の実施の形態における頻度ベクトル出現頻度更新部の処理の流れを示す図である。
図27は、本発明の第3の実施の形態における関連度算出部の処理の流れを示す。
202 単語保持部
203 出現頻度更新手段、出現頻度更新部
204 出現頻度記憶手段、出現頻度記録部
205 組み合わせ生成部
206 共起頻度更新部
207 共起頻度記録部
208 文書数記録部
209 関連度算出手段、関連度算出部
210 最新関連度記憶手段、最新関連度記録部
1401 文書解析部
1402 減衰定数算出部
1403 単語保持部
1404 出現頻度更新部
1405 出現頻度記録部
1406 組み合わせ生成部
1407 共起頻度更新部
1408 共起頻度記録部
1409 全体量算出部
1410 関連度算出部
1411 最新関連度記録部
1801 文書解析部
1802 減衰定数算出部
1803 単語保持部
1804 頻度ベクトル更新部
1805 頻度ベクトル記録部
1806 関連度算出部
1807 最新関連度記録部
Claims (6)
- 時刻情報を有する複数の文書中に含まれる単語を、時刻順に1文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出方法であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新ステップと、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出ステップと、
を行うことを特徴とする単語間関連度算出方法。 - 直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出ステップを更に行う請求項1記載の単語間関連度算出方法。
- 前記単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、前記出現頻度と同様に、前記減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新ステップを更に行い、
前記関連度算出ステップにおいて、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、前記共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を前記最新関連度記憶手段に記録する、
請求項1または、2記載の単語間関連度算出方法。 - 時刻情報を有する複数の文書中に含まれる単語を、時刻順に1文書ずつ順に取得し、過去に解析した文書から既に取得済みの単語の出現頻度と統合して単語間の関連度を算出する単語間関連度算出装置であって、
解析済みの文書から既に取得した各単語の出現頻度を出現頻度記憶手段から取得し、1未満の値を持つ減衰定数を乗じて減衰させ、新たに解析した文書中から取得した単語の出現頻度を追加して、各単語の出現頻度を更新し、該出現頻度記憶手段に記録する出現頻度更新手段と、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに、該単語間の関連度を最新関連度記憶手段に記録する関連度算出手段と、
を有することを特徴とする単語間関連度算出装置。 - 直前に処理した文書が有する時刻情報と新規に処理する文書が有する時刻情報との時間差に基づいて、該時間差が大きいほど小さな減衰定数の値を決定する減衰定数算出手段を更に有する請求項4記載の単語間関連度算出装置。
- 前記単語の出現頻度に加え、同一文書内で異なる複数の単語が同時に出現する頻度である共起頻度を集計し、前記出現頻度と同様に、前記減衰定数を乗じて更新し、共起頻度記憶手段に記録する共起頻度更新手段を更に有し、
前記関連度算出手段は、
前記出現頻度記憶手段から単語並びに該単語の出現頻度の組を取得するのに加え、前記共起頻度記憶手段から異なる複数の単語の共起頻度を取得し、複数の異なる単語間の関連度を算出し、該異なる単語並びに該単語間の関連度を前記最新関連度記憶手段に記録する手段を有する、
請求項4または、5記載の単語間関連度算出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005291798A JP2007102501A (ja) | 2005-10-04 | 2005-10-04 | 単語間関連度算出方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005291798A JP2007102501A (ja) | 2005-10-04 | 2005-10-04 | 単語間関連度算出方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007102501A true JP2007102501A (ja) | 2007-04-19 |
Family
ID=38029377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005291798A Pending JP2007102501A (ja) | 2005-10-04 | 2005-10-04 | 単語間関連度算出方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007102501A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009069874A (ja) * | 2007-09-10 | 2009-04-02 | Sharp Corp | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 |
JP2009086773A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
JP2009271795A (ja) * | 2008-05-08 | 2009-11-19 | Nomura Research Institute Ltd | 検索システム |
JP2010205224A (ja) * | 2009-03-06 | 2010-09-16 | Yahoo Japan Corp | 商品情報提供装置、商品情報の提供方法及びプログラム |
JP2012164018A (ja) * | 2011-02-03 | 2012-08-30 | Nifty Corp | タグ推薦装置 |
JP2014052694A (ja) * | 2012-09-05 | 2014-03-20 | Nippon Telegr & Teleph Corp <Ntt> | 同義タグ抽出装置及び方法及びプログラム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282367A (ja) * | 1992-03-30 | 1993-10-29 | Nippon Telegr & Teleph Corp <Ntt> | 関連キーワード自動生成装置 |
JP2001155020A (ja) * | 1999-11-25 | 2001-06-08 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び記録媒体 |
JP2002518748A (ja) * | 1998-06-15 | 2002-06-25 | アマゾン ドット コム インコーポレイテッド | 検索照会改善システムおよび方法 |
JP2002334106A (ja) * | 2001-05-11 | 2002-11-22 | Fujitsu Ltd | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
JP2004005063A (ja) * | 2002-05-30 | 2004-01-08 | Ricoh Co Ltd | 文書処理装置 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2005122665A (ja) * | 2003-10-20 | 2005-05-12 | Sony Corp | 電子機器装置、関連語データベースの更新方法、プログラム |
-
2005
- 2005-10-04 JP JP2005291798A patent/JP2007102501A/ja active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282367A (ja) * | 1992-03-30 | 1993-10-29 | Nippon Telegr & Teleph Corp <Ntt> | 関連キーワード自動生成装置 |
JP2002518748A (ja) * | 1998-06-15 | 2002-06-25 | アマゾン ドット コム インコーポレイテッド | 検索照会改善システムおよび方法 |
JP2001155020A (ja) * | 1999-11-25 | 2001-06-08 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び記録媒体 |
JP2002334106A (ja) * | 2001-05-11 | 2002-11-22 | Fujitsu Ltd | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
JP2004005063A (ja) * | 2002-05-30 | 2004-01-08 | Ricoh Co Ltd | 文書処理装置 |
JP2004021763A (ja) * | 2002-06-19 | 2004-01-22 | Hitachi Ltd | テキストマイニングプログラム、方法、及び装置 |
JP2005122665A (ja) * | 2003-10-20 | 2005-05-12 | Sony Corp | 電子機器装置、関連語データベースの更新方法、プログラム |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009069874A (ja) * | 2007-09-10 | 2009-04-02 | Sharp Corp | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 |
JP2009086773A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
JP2009271795A (ja) * | 2008-05-08 | 2009-11-19 | Nomura Research Institute Ltd | 検索システム |
JP2010205224A (ja) * | 2009-03-06 | 2010-09-16 | Yahoo Japan Corp | 商品情報提供装置、商品情報の提供方法及びプログラム |
JP2012164018A (ja) * | 2011-02-03 | 2012-08-30 | Nifty Corp | タグ推薦装置 |
JP2014052694A (ja) * | 2012-09-05 | 2014-03-20 | Nippon Telegr & Teleph Corp <Ntt> | 同義タグ抽出装置及び方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7284009B2 (en) | System and method for command line prediction | |
US9880997B2 (en) | Inferring type classifications from natural language text | |
US9864741B2 (en) | Automated collective term and phrase index | |
US9558263B2 (en) | Identifying and displaying relationships between candidate answers | |
US9448990B2 (en) | Adaptive construction of a statistical language model | |
US7584184B2 (en) | System of effectively searching text for keyword, and method thereof | |
JP2009545809A (ja) | インクリメンタルに更新可能な変形ナイーブベイズクエリ分類器を使用したランク付け関数 | |
US20100198802A1 (en) | System and method for optimizing search objects submitted to a data resource | |
CN110569494B (zh) | 用于生成信息的方法、装置、电子设备及可读介质 | |
US9507767B2 (en) | Caching of deep structures for efficient parsing | |
JP2007102501A (ja) | 単語間関連度算出方法及び装置 | |
CN111651552B (zh) | 结构化信息确定方法、装置和电子设备 | |
US20090182797A1 (en) | Consistent contingency table release | |
US8645428B2 (en) | Arithmetic node encoding for tree structures | |
US11074276B2 (en) | Methods and systems for optimized visual summarization for sequences of temporal event data | |
US10719663B2 (en) | Assisted free form decision definition using rules vocabulary | |
CN116340617B (zh) | 一种搜索推荐方法和装置 | |
JP2004240488A (ja) | 文書管理装置 | |
US11550777B2 (en) | Determining metadata of a dataset | |
Wongchaisuwat | Automatic keyword extraction using textrank | |
US7035861B2 (en) | System and methods for providing data management and document data retrieval | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP6764973B1 (ja) | 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム | |
CN112988668B (zh) | 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法 | |
US20240012627A1 (en) | Entity search engine powered by copy-detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100624 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101109 |