JP2010009254A - 素性語選別装置、方法及びプログラム - Google Patents
素性語選別装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2010009254A JP2010009254A JP2008166566A JP2008166566A JP2010009254A JP 2010009254 A JP2010009254 A JP 2010009254A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2010009254 A JP2010009254 A JP 2010009254A
- Authority
- JP
- Japan
- Prior art keywords
- feature word
- feature
- web page
- stored
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】通信ネットワークN上に配信されるウェブページを特徴付ける素性語を、ウェブページに関連付けて記憶する素性語記憶手段10と、素性語記憶手段10に記憶されている素性語毎に、素性語を検索キーワードとした検索エンジンによる検索によって、素性語に関連付けて記憶されているウェブページが合致した頻度を示すヒット回数をカウントし、ヒット回数が、所定の閾値以上又は以下となった際に、素性語を素性語記憶手段10から削除することにより、素性語記憶手段10に記憶されている素性語を選別する素性語選別手段11と、を備える。
【選択図】図2
Description
したがって、YAHOO!JAPAN(登録商標)等、いくつかのサービス業者は、検索エンジンの他に、下記非特許文献1に示すように、ウェブページをカテゴリ別に分類する分類サービスを行っており、これにより、ユーザは、目的とするウェブページを見つけやすくなっている。
[online]、2008年4月21月号、YAHOO!JAPANカテゴリ、[2008年4月23日検索]、インターネット<URL:http://dir.yahoo.co.jp/>
カテゴリの規模を大きくすると、ユーザはより意図に近い分類カテゴリを指定することができる。しかしながら、カテゴリの規模を大きくすると所属する文書の数が増え、分類処理時に取り扱う素性語の数も増加し、ウェブページにマッチするカテゴリを割り付ける作業が複雑となり時間を要することになる。また、そのような作業に耐えうる分類装置を導入するにはコストも高くつく。
本発明に係る素性語選別装置は、予め定められた一定のルールに従って素性語を素性語データベースから削除することにより、予め記憶されている素性語に基づいたカテゴリ分類処理に要する負担を軽減するものである。
前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
を備えることを特徴とする素性語選別装置。
予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。
図1は、本実施形態に係る素性語選別装置と関連要素の全体構成を示す図である。
Pを確率として、P(X,Y)は、「X」と「Y」とが共起する確率であり、P(X)、P(Y)は、それぞれ個別に生起する確率である。
図2は、本実施形態に係る素性語選別装置1の機能構成の概要を示す図である。本実施形態に係る素性語選別装置1は、素性語記憶手段10と、素性語選別手段11と、を備える。素性語選別手段11は、更に素性語準備処理部13と素性語選別処理部14を備える。
図3は、素性語データベース12と関連要素の構成の概要を示す図である。
素性語データベース12は、構築済みのカテゴリ構造データを用いて、予め素性語IDと素性語とを対応付けて記憶した素性語IDテーブル121と、予め文書IDと文書(ウェブページ)の通信アドレス(例えばURL)とを対応付けて記憶した文書IDテーブル122と、予め素性語IDと文書IDとを対応付けて記憶したID対応テーブル123と、後述する頻度テーブル124と、を備える。
図4は、本実施形態に係る素性語選別装置のハードウェア構成を示す図である。
素性語選別装置1は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。尚、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
分類装置2、検索装置3も、上述の素性語選別装置1と同様な構成を持つ。
[素性語選別のための準備処理]
図5は、本発明の実施形態に係る素性語選別のための準備処理のフローチャートを示している。
S1:分類装置2は、既存のカテゴリデータを集合Dとする。
S2、S3:分類装置2は、集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。
S4、S5:分類装置2は、文書dの素性f(素性語ベクトルf)を生成し、素性語データベース12を更新する。
図6は、本発明の実施形態に係る訓練処理のフローチャートを示している。
S6〜S9:分類装置2は、既存のカテゴリデータを集合Dとする。集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。分類装置2は、文書dの素性fを生成する。
S10:素性語選別装置1は、後述する素性語選別処理を行う。
S11:分類装置2は、選別された素性語を用いて訓練用データを書き出す。
S12:ステップS7において集合Dが空の場合には、ステップS11で書き出された訓練用データを用いて訓練を行いモデルMを生成する。
図7は、本発明の実施形態に係る予測処理のフローチャートを示している。
S13、S14:分類装置2は、入力文書をdとし、文書dの素性fを生成する。
S15:素性語選別装置1は、後述する素性語選別処理を行う。
S16、S17:分類装置2は、選別された素性f’をモデルMで予測することにより、属するカテゴリcを予測する。
図8は、本実施形態に係る素性語選別処理を表すフローチャートを示している。
S18:素性fの要素を集合Eとする。
S19、S20:集合Eが空ではなければ、集合Eから素性要素を取り出す。尚、図中、場所lとは、後述するように、素性要素が位置する文書中の場所を示す。語tとは、素性語となりうる文書中の語を示す。
S21:素性語DBを参照して(l,t)を選別する。
S22:削除対象であるどうかを判定し、削除対象であれば、ステップS19に戻る。そうでなければステップS23に進む。
S23:(l,t)を出力し、ステップS19に戻る。
以下に素性語選別処理の詳細について説明する。
(条件a) 語tのウェブ検索頻度が一定範囲である。
(条件b) 既存カテゴリデータにおいて、場所lに語tが出現した頻度が一定範囲である。
(条件c) 既存カテゴリデータにおいて、任意の場所lに語tが出現した頻度が一定範囲である。
(条件d) 語tのウェブ検索頻度、既存カテゴリデータにおける特定場所での出現頻度が一定範囲の特定の組み合わせ条件を満たす。
ここで、場所lには、本文、タイトル、メタ記述、メタキーワードの種類が存在する。
図9は、素性語準備処理部13による条件aにおける素性語選別の準備処理を示したものである。
S30:素性fの要素を集合Eとする。
S31、S32:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S33、S34:語tの検索頻度がDBに登録済みの場合は、ステップS31に戻り、そうでない場合は、検索装置3によって、語tをインターネット検索させる。
S35、S36:検索装置3からのヒット件数が取得できた場合は、素性語記憶手段10は、語tの検索頻度nをDBに登録する。そうでない場合は、ステップS31の処理に戻る。
図10は、素性語選別処理部14による条件aにおける素性語選別処理を示したものである。
S40:素性語DBから語tの検索頻度を取得する。
S41:頻度nが取得できた場合は、S42に処理を移し、そうでない場合は処理を終了する。
S42、S44:頻度nが検索頻度の下限値に等しいか小さい場合は、削除判定を出力する。そうでない場合は、S43に処理を移す。
S43、S44:頻度nが検索上限値を超える場合は、削除判定を出力する。そうでない場合は、処理を終了する。
図11は、素性語準備処理部13による条件bにおける素性語選別の準備処理を示したものである。
S50:素性fの要素を集合Eとする。
S51、S52:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S53:素性語DBから語tの場所lの頻度を取得する。
S54:頻度nが取得できた場合は、ステップS56の処理に移り、取得できなかった場合は、ステップS55の処理に戻る。
S55:素性語記憶手段10により、語tの場所lの頻度1でDBに登録し、ステップS51の処理に再び戻る。
S56:DBの語tの場所lの頻度を更新する。そしてステップS51へ処理を移す。
図12は、素性語選別処理部14による条件bにおける素性語選別処理を示したものである。
S60:素性語DBから語tの場所lの頻度nを取得する。
S61:頻度nが取得できた場合は、ステップS62に移り、そうでない場合は処理を終了する。
S62、S64:頻度nが場所頻度の下限値に等しいか大きい場合は、ステップS63に移り、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
S63、S64:頻度nが場所頻度の上限値を超えない場合は、処理を終了し、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
素性語準備処理部13による条件cにおける素性選別準備処理は、図11の条件bの場合と同様である。素性語準備処理部13は、条件bの準備処理が行われてない場合のみ同一の処理を実行する。
図13は、素性語選別処理部14による条件cにおける素性語選別処理を示したものである。
S70:素性語DBから語tの全ての場所における頻度を取得し、合計する。
S71:頻度合計naが取得できた場合は、ステップS72に移り、そうでない場合は処理を終了する。
S72:頻度合計naが場所頻度合計の下限値に等しいか大きい場合は、ステップS73に移り、そうでない場合は、ステップS74に移る。
S73:頻度合計naが場所頻度合計の上限値を超える場合は、ステップS74に移り、そうでない場合は、処理を終了する。
S74:削除判定を出力し、処理を終了する。
3 検索装置
10 素性語記憶手段
11 素性語選別手段
12 素性語データベース
Claims (5)
- 通信ネットワーク上に配信されるウェブページを特徴付ける素性語を、前記ウェブページに関連付けて記憶する素性語記憶手段と、
前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
を備えることを特徴とする素性語選別装置。 - 前記素性語選別手段は、
前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページ中に出現する出現頻度をカウントし、前記出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。 - 前記素性語選別手段は、
前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページのタイトル又は本文又は概要中に出現する出現頻度をカウントし、その出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。 - コンピュータが、
予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。 - 請求項4に記載の方法をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008166566A JP5178347B2 (ja) | 2008-06-25 | 2008-06-25 | 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008166566A JP5178347B2 (ja) | 2008-06-25 | 2008-06-25 | 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010009254A true JP2010009254A (ja) | 2010-01-14 |
| JP5178347B2 JP5178347B2 (ja) | 2013-04-10 |
Family
ID=41589683
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008166566A Active JP5178347B2 (ja) | 2008-06-25 | 2008-06-25 | 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5178347B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113886673A (zh) * | 2021-10-28 | 2022-01-04 | 盐城至新达科技有限公司 | 网页信息收集系统和方法 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12153888B2 (en) * | 2021-05-25 | 2024-11-26 | Target Brands, Inc. | Multi-task triplet loss for named entity recognition using supplementary text |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
| JP2005309998A (ja) * | 2004-04-23 | 2005-11-04 | Fujitsu Ltd | コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置 |
| JP2005332080A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 |
-
2008
- 2008-06-25 JP JP2008166566A patent/JP5178347B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
| JP2005309998A (ja) * | 2004-04-23 | 2005-11-04 | Fujitsu Ltd | コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置 |
| JP2005332080A (ja) * | 2004-05-18 | 2005-12-02 | Nippon Telegr & Teleph Corp <Ntt> | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 |
Non-Patent Citations (2)
| Title |
|---|
| CSNB200400018001; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 * |
| JPN6011052970; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113886673A (zh) * | 2021-10-28 | 2022-01-04 | 盐城至新达科技有限公司 | 网页信息收集系统和方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5178347B2 (ja) | 2013-04-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7096214B1 (en) | System and method for supporting editorial opinion in the ranking of search results | |
| CN103430172B (zh) | 检索装置、检索方法及程序 | |
| JP5420243B2 (ja) | 所望リポジトリの判定 | |
| US20040002945A1 (en) | Program for changing search results rank, recording medium for recording such a program, and content search processing method | |
| JP2002230021A (ja) | 情報検索装置及び情報検索方法並びに記憶媒体 | |
| JP6053131B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
| JP5329540B2 (ja) | ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム | |
| US8019758B2 (en) | Generation of a blended classification model | |
| JP5226241B2 (ja) | タグを付与する方法 | |
| JP2010092357A (ja) | 施設関連情報検索方法および施設関連情報検索システム | |
| JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
| CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
| JPWO2003034279A1 (ja) | 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| JP4746439B2 (ja) | 文書検索サーバおよび文書検索方法 | |
| JP2003173352A (ja) | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 | |
| JP7256357B2 (ja) | 情報処理装置、制御方法、プログラム | |
| JP5178347B2 (ja) | 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム | |
| JP2010003134A (ja) | 検索キーワードを推薦するサーバ、方法、およびプログラム | |
| JPH11213000A (ja) | インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体 | |
| JP2005010848A (ja) | 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体 | |
| JP4973503B2 (ja) | ファイル検索プログラム、方法及び装置 | |
| JP3880534B2 (ja) | 文書分類方法及び文書分類プログラム | |
| JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
| CN116186198A (zh) | 信息检索方法、装置、计算机设备及存储介质 | |
| JP6916136B2 (ja) | 検索支援装置、検索支援方法、及び検索支援プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110930 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111011 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111212 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120710 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120807 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121010 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121017 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130108 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5178347 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
