JP2010009254A - 素性語選別装置、方法及びプログラム - Google Patents

素性語選別装置、方法及びプログラム Download PDF

Info

Publication number
JP2010009254A
JP2010009254A JP2008166566A JP2008166566A JP2010009254A JP 2010009254 A JP2010009254 A JP 2010009254A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2008166566 A JP2008166566 A JP 2008166566A JP 2010009254 A JP2010009254 A JP 2010009254A
Authority
JP
Japan
Prior art keywords
feature word
feature
web page
stored
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008166566A
Other languages
English (en)
Other versions
JP5178347B2 (ja
Inventor
Kiyoshi Nitta
清 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008166566A priority Critical patent/JP5178347B2/ja
Publication of JP2010009254A publication Critical patent/JP2010009254A/ja
Application granted granted Critical
Publication of JP5178347B2 publication Critical patent/JP5178347B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】素性語を所定のルールに基づいて選別することにより、ウェブページにカテゴリを割り付ける作業負担を軽減できる素性語選別装置を提供する。
【解決手段】通信ネットワークN上に配信されるウェブページを特徴付ける素性語を、ウェブページに関連付けて記憶する素性語記憶手段10と、素性語記憶手段10に記憶されている素性語毎に、素性語を検索キーワードとした検索エンジンによる検索によって、素性語に関連付けて記憶されているウェブページが合致した頻度を示すヒット回数をカウントし、ヒット回数が、所定の閾値以上又は以下となった際に、素性語を素性語記憶手段10から削除することにより、素性語記憶手段10に記憶されている素性語を選別する素性語選別手段11と、を備える。
【選択図】図2

Description

本発明は、通信ネットワーク上に配信されるウェブページを、予め定められたカテゴリ別に分類するための特徴語を選別する素性語選別装置、方法及びプログラムに関する。
近年、インターネット上に無数のウェブページが存在しており、目的にあったウェブページを検索することは容易ではない。そのため、検索エンジンが提供されているが、このような検索エンジンを使用したとしても、目的とするウェブページが検索できるとは限らない。
したがって、YAHOO!JAPAN(登録商標)等、いくつかのサービス業者は、検索エンジンの他に、下記非特許文献1に示すように、ウェブページをカテゴリ別に分類する分類サービスを行っており、これにより、ユーザは、目的とするウェブページを見つけやすくなっている。
[online]、2008年4月21月号、YAHOO!JAPANカテゴリ、[2008年4月23日検索]、インターネット<URL:http://dir.yahoo.co.jp/>
このようなカテゴリ別に分類する分類サービスでは、カテゴリの規模が大きい(数万ノードの)場合は手作業でウェブページを分類している。カテゴリ規模が小さい(数百ノードの)場合は自動的な分類処理が多数試みられており、インターネット上に存在するウェブページに含まれる語句と、予め記憶された素性語とを対比して、その対比結果に基づいて、予め記憶された素性語に対応するカテゴリを付与している。
カテゴリの規模を大きくすると、ユーザはより意図に近い分類カテゴリを指定することができる。しかしながら、カテゴリの規模を大きくすると所属する文書の数が増え、分類処理時に取り扱う素性語の数も増加し、ウェブページにマッチするカテゴリを割り付ける作業が複雑となり時間を要することになる。また、そのような作業に耐えうる分類装置を導入するにはコストも高くつく。
本発明は、このような事情を考慮して提案されるものであり、予め記憶された素性語を所定のルールに基づいて選別することにより、ウェブページにカテゴリを割り付ける作業負担を軽減することができる素性語選別装置、方法及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明者は、予め記憶された素性語を所定のルールに基づいて選別できる仕組みを見出し、本発明を想到するに至った。
本発明に係る素性語選別装置は、予め定められた一定のルールに従って素性語を素性語データベースから削除することにより、予め記憶されている素性語に基づいたカテゴリ分類処理に要する負担を軽減するものである。
(1)通信ネットワーク上に配信されるウェブページを特徴付ける素性語を、前記ウェブページに関連付けて記憶する素性語記憶手段と、
前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
を備えることを特徴とする素性語選別装置。
(1)の発明によれば、検索エンジンによる検索によって、素性語に関連付けて素性語記憶手段に記憶されているウェブページにヒットしたヒット回数が、所定の閾値以上又は以下となった際に、その素性語を素性語記憶手段から削除するので、以下の効果を奏する。
すなわち、前記ヒット回数が所定の閾値以上となった際に、素性語を素性語記憶手段から削除するので、その素性語はありふれた用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。
また、前記ヒット回数が所定の閾値以下となった際に、素性語を素性語記憶手段から削除するので、その素性語は一般ユーザに連想されない用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。
そのため、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。
(2)前記素性語選別手段は、前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページ中に出現する出現頻度をカウントし、前記出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、(1)に記載の素性語選別装置。
(2)の発明によれば、素性語に関連付けて記憶されているウェブページ中に出現する出現頻度が所定の閾値以下となった際に、その素性語を素性語記憶手段から削除するので、出現頻度が閾値以下である素性語は、ウェブユーザの作成者にとって連想されない用語、つまり、ウェブページを特徴づけることができない用語であると判断して、その素性語を基にしたカテゴリ分類を不可能にすることができる。
そのため、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。
(3)前記素性語選別手段は、前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページのタイトル又は本文又は概要中に出現する出現頻度をカウントし、その出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、(1)に記載の素性語選別装置。
(3)の発明によれば、素性語に関連付けて記憶されているウェブページのタイトル中に出現する出現頻度が所定の閾値以下となった際に、素性語を素性語記憶手段から削除する。一般に、タイトル中の出現頻度が閾値以下である素性語は、ウェブページ中のその他の項目よりも更にウェブページ作成者の印象に依存するため、そのようなタイトル中の出現頻度が閾値以下である素性語を削除することにより、ウェブページを特徴づけるような素性語のみを素性語記憶手段に残すことができる。
(4)コンピュータが、
予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。
(5)(4)に記載の方法をコンピュータに実行させることを特徴とするプログラム。
この発明によれば、真にウェブページを特徴づけるような素性語のみが素性語記憶手段に残留するため、素性語に基づいたカテゴリ分類を効率的に行うことができ、カテゴリ分類装置の導入コストを低く抑えることができる。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[素性語選別装置と関連要素の全体構成]
図1は、本実施形態に係る素性語選別装置と関連要素の全体構成を示す図である。
本実施形態に係る素性語選別装置1は、インターネット等の通信ネットワークNと、分類装置2とに接続されている。検索装置3は、通信ネットワークNと、素性語選別装置1とに接続されている。
分類装置2は、通信ネットワーク上のウェブページをカテゴリに分類するものである。その分類手法は種々考えられるが、例えば、以下の分類手法が考えられる。
すなわち、分類装置2は、ウェブページに含まれる文字データについて、形態素解析を行い、文章(複数の単語から構成される文字データ)を単語毎に分けて、分けた単語を品詞毎に分類して、特定の品詞(例えば名詞)のみを抽出する。そして、後述する素性語データベース12(図2参照)に記憶された素性語の中に、一致する素性語があるか否かを判断し、一致するものがあれば、一致した素性語に関係付けられたカテゴリとの平均相互情報量により、平均相互情報量が所定値以上である場合には、当該カテゴリを、このウェブページのカテゴリとする。
なお、平均相互情報量平均相互情報量の算出には、例えば、以下の式が使用される。
Figure 2010009254
MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
Pを確率として、P(X,Y)は、「X」と「Y」とが共起する確率であり、P(X)、P(Y)は、それぞれ個別に生起する確率である。
検索装置3は、通信ネットワークN上に接続されたユーザ端末(図示せず)から、検索キーワードを含む検索要求(以下、クエリと呼ぶ)を受け付けて、検索キーワードにマッチするウェブページの通信アドレス、タイトル、要約を少なくとも含む検索結果を返信する。
検索装置3は、通信ネットワークN上に接続されたユーザ端末からクエリを受け付けるクエリ受付部30と、検索処理部32にクエリを送信するクエリ送信部31と、クエリ送信部31から送信されたクエリに基づいて、検索キーワードにマッチするウェブページを検索する検索処理部32と、検索処理部32により検索されたウェブページの通信アドレス、タイトル、要約を少なくとも含む検索結果を生成する検索結果生成部33と、ユーザ端末の他に、素性語選別装置1に検索結果を送信する検索結果送信部34と、検索履歴を記録する検索ログ記録部35と、を備える。
[素性語選別装置の機能構成]
図2は、本実施形態に係る素性語選別装置1の機能構成の概要を示す図である。本実施形態に係る素性語選別装置1は、素性語記憶手段10と、素性語選別手段11と、を備える。素性語選別手段11は、更に素性語準備処理部13と素性語選別処理部14を備える。
素性語記憶手段10は、ウェブページを特徴づける単語となる素性語を予め記憶している。尚、素性語記憶手段10の詳細については後述する。素性語選別手段11は、分類装置2と協働した処理により、後述する所定のルールに基づいて素性語を選別する。素性語データベース12(素性語DB)は素性語記憶手段10の一部を構成しており、予め前記素性語を記憶している。
[素性語データベースと関連要素の構成]
図3は、素性語データベース12と関連要素の構成の概要を示す図である。
素性語データベース12は、構築済みのカテゴリ構造データを用いて、予め素性語IDと素性語とを対応付けて記憶した素性語IDテーブル121と、予め文書IDと文書(ウェブページ)の通信アドレス(例えばURL)とを対応付けて記憶した文書IDテーブル122と、予め素性語IDと文書IDとを対応付けて記憶したID対応テーブル123と、後述する頻度テーブル124と、を備える。
素性語IDテーブル121には、素性語に素性語IDが割り付けられて記憶されている。文書IDテーブル122には、ウェブページの通信アドレス(URL等)に文書IDが割り付けられて記憶されている。ID対応テーブル123には、素性語に割り付けられた素性語IDと、ウェブページに割り付けられた文書IDと、該素性語が該ウェブページに出現する出現位置を表す出現位置タイプと、が対応して記憶されている。
頻度テーブル124には、素性語ID毎に、検索キーワードを基にした検索により、文書IDテーブル122に記憶されているウェブページにヒットしたヒット回数が「頻度」として記憶される。図中では、検索キーワードを基にしたウェブページのヒット回数を頻度として記憶するという意味で、「頻度」がタイプ「検索」に対応して記憶される。
また、頻度テーブル124には、素性語ID毎に、その素性語IDに対応して素性語IDテーブル121に記憶されている素性語が、文書IDテーブル122に記憶されているウェブページにおける「タイトル」及び「本文」中における出現頻度が記憶される。図中では、ウェブページのタイトル及び本文における素性語の出現頻度を記憶するという意味で、「頻度」が、タイプ「タイトル」及び「本文」に対応して記憶される。
素性語選別装置1は、ヒット回数及び出現頻度をカウントする対象となる素性語を、素性語IDテーブル121を参照して抽出する。
[素性語選別装置のハードウェア構成図]
図4は、本実施形態に係る素性語選別装置のハードウェア構成を示す図である。
素性語選別装置1は、制御部300を構成するCPU(Central Processing Unit)310(マルチプロセッサ構成ではCPU320等複数のCPUが追加されてもよい)、バスライン200、通信I/F(I/F:インタフェース)330、メインメモリ340、BIOS(Basic Input Output System)350、I/Oコントローラ360、ハードディスク370、光ディスクドライブ380、並びに半導体メモリ390を備える。尚、ハードディスク370、光ディスクドライブ380、並びに、半導体メモリ390はまとめて記憶装置410と呼ばれる。
制御部300は、素性語選別装置1を統括的に制御する部分であり、ハードディスク370(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F330は、素性語選別装置1が、インターネットN(図1)を介してユーザ端末等と情報を送受信する場合のネットワーク・アダプタである。通信I/F330は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS350は、素性語選別装置1の起動時にCPU310が実行するブートプログラムや、素性語選別装置1がハードウェアに依存するプログラム等を記録する。
I/Oコントローラ360には、ハードディスク370、光ディスクドライブ380、及び半導体メモリ390等の記憶装置410を接続することができる。
ハードディスク370は、本ハードウェアを素性語選別装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブル及びレコードを記憶する。なお、素性語選別装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ380としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク400を使用する。光ディスク400から光ディスクドライブ380によりプログラム又はデータを読み取り、I/Oコントローラ360を介してメインメモリ340又はハードディスク370に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、素性語選別装置1は、記憶装置410、制御部300等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
この素性語選別装置1では、制御部300が主として素性語選別手段11に対応し、記憶装置410が主として素性語記憶手段10に対応する。
[検索装置3のハードウェア構成]
分類装置2、検索装置3も、上述の素性語選別装置1と同様な構成を持つ。
[本発明の実施形態に係るフローチャート]
[素性語選別のための準備処理]
図5は、本発明の実施形態に係る素性語選別のための準備処理のフローチャートを示している。
S1:分類装置2は、既存のカテゴリデータを集合Dとする。
S2、S3:分類装置2は、集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。
S4、S5:分類装置2は、文書dの素性f(素性語ベクトルf)を生成し、素性語データベース12を更新する。
[分類装置の訓練処理]
図6は、本発明の実施形態に係る訓練処理のフローチャートを示している。
S6〜S9:分類装置2は、既存のカテゴリデータを集合Dとする。集合Dが空でなければ、集合Dからカテゴリ(クラス)c毎に、属する文書dを取り出す。分類装置2は、文書dの素性fを生成する。
S10:素性語選別装置1は、後述する素性語選別処理を行う。
S11:分類装置2は、選別された素性語を用いて訓練用データを書き出す。
S12:ステップS7において集合Dが空の場合には、ステップS11で書き出された訓練用データを用いて訓練を行いモデルMを生成する。
[分類装置の予測処理]
図7は、本発明の実施形態に係る予測処理のフローチャートを示している。
S13、S14:分類装置2は、入力文書をdとし、文書dの素性fを生成する。
S15:素性語選別装置1は、後述する素性語選別処理を行う。
S16、S17:分類装置2は、選別された素性f’をモデルMで予測することにより、属するカテゴリcを予測する。
[素性語選別処理]
図8は、本実施形態に係る素性語選別処理を表すフローチャートを示している。
S18:素性fの要素を集合Eとする。
S19、S20:集合Eが空ではなければ、集合Eから素性要素を取り出す。尚、図中、場所lとは、後述するように、素性要素が位置する文書中の場所を示す。語tとは、素性語となりうる文書中の語を示す。
S21:素性語DBを参照して(l,t)を選別する。
S22:削除対象であるどうかを判定し、削除対象であれば、ステップS19に戻る。そうでなければステップS23に進む。
S23:(l,t)を出力し、ステップS19に戻る。
[素性語選別処理の詳細]
以下に素性語選別処理の詳細について説明する。
(場所l、語t)の選別条件には次の種類がある。
(条件a) 語tのウェブ検索頻度が一定範囲である。
(条件b) 既存カテゴリデータにおいて、場所lに語tが出現した頻度が一定範囲である。
(条件c) 既存カテゴリデータにおいて、任意の場所lに語tが出現した頻度が一定範囲である。
(条件d) 語tのウェブ検索頻度、既存カテゴリデータにおける特定場所での出現頻度が一定範囲の特定の組み合わせ条件を満たす。
ここで、場所lには、本文、タイトル、メタ記述、メタキーワードの種類が存在する。
以下、図9〜図13を参照し、準備処理と選別処理に関する具体的な処理フローを条件a、b、cについて示す。
[素性語選別準備処理(条件a)]
図9は、素性語準備処理部13による条件aにおける素性語選別の準備処理を示したものである。
S30:素性fの要素を集合Eとする。
S31、S32:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S33、S34:語tの検索頻度がDBに登録済みの場合は、ステップS31に戻り、そうでない場合は、検索装置3によって、語tをインターネット検索させる。
S35、S36:検索装置3からのヒット件数が取得できた場合は、素性語記憶手段10は、語tの検索頻度nをDBに登録する。そうでない場合は、ステップS31の処理に戻る。
[素性語選別処理(条件a)]
図10は、素性語選別処理部14による条件aにおける素性語選別処理を示したものである。
S40:素性語DBから語tの検索頻度を取得する。
S41:頻度nが取得できた場合は、S42に処理を移し、そうでない場合は処理を終了する。
S42、S44:頻度nが検索頻度の下限値に等しいか小さい場合は、削除判定を出力する。そうでない場合は、S43に処理を移す。
S43、S44:頻度nが検索上限値を超える場合は、削除判定を出力する。そうでない場合は、処理を終了する。
[素性語選別準備処理(条件b)]
図11は、素性語準備処理部13による条件bにおける素性語選別の準備処理を示したものである。
S50:素性fの要素を集合Eとする。
S51、S52:集合Eが空でない場合は、Eから素性要素(場所l、語t)を取り出す。集合Eが空の場合は、処理を終了する。
S53:素性語DBから語tの場所lの頻度を取得する。
S54:頻度nが取得できた場合は、ステップS56の処理に移り、取得できなかった場合は、ステップS55の処理に戻る。
S55:素性語記憶手段10により、語tの場所lの頻度1でDBに登録し、ステップS51の処理に再び戻る。
S56:DBの語tの場所lの頻度を更新する。そしてステップS51へ処理を移す。
[素性語選別処理(条件b)]
図12は、素性語選別処理部14による条件bにおける素性語選別処理を示したものである。
S60:素性語DBから語tの場所lの頻度nを取得する。
S61:頻度nが取得できた場合は、ステップS62に移り、そうでない場合は処理を終了する。
S62、S64:頻度nが場所頻度の下限値に等しいか大きい場合は、ステップS63に移り、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
S63、S64:頻度nが場所頻度の上限値を超えない場合は、処理を終了し、そうでない場合は、ステップS64に移り、削除判定を出力し、その後処理を終了する。
[素性語選別準備処理(条件c)]
素性語準備処理部13による条件cにおける素性選別準備処理は、図11の条件bの場合と同様である。素性語準備処理部13は、条件bの準備処理が行われてない場合のみ同一の処理を実行する。
[素性語選別処理(条件c)]
図13は、素性語選別処理部14による条件cにおける素性語選別処理を示したものである。
S70:素性語DBから語tの全ての場所における頻度を取得し、合計する。
S71:頻度合計naが取得できた場合は、ステップS72に移り、そうでない場合は処理を終了する。
S72:頻度合計naが場所頻度合計の下限値に等しいか大きい場合は、ステップS73に移り、そうでない場合は、ステップS74に移る。
S73:頻度合計naが場所頻度合計の上限値を超える場合は、ステップS74に移り、そうでない場合は、処理を終了する。
S74:削除判定を出力し、処理を終了する。
以上、本発明を実施形態に即して説明したが、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本実施形態に係る素性語選別装置と関連要素の全体構成を示す図である。 本実施形態に係る素性語選別装置の機能構成の概要を示す図である。 素性語データベースと関連要素の構成の概要を示す図である。 本実施形態に係る素性語選別装置のハードウェア構成を示す図である。 本発明の実施形態に係る素性語選別のための準備処理のフローチャートを示している。 本発明の実施形態に係る訓練処理のフローチャートを示している。 本発明の実施形態に係る予測処理のフローチャートを示している。 本実施形態に係る素性語選別処理を表すフローチャートを示している。 本発明の実施形態に係る素性語選別準備処理(条件a)のフローチャートを示している。 本発明の実施形態に係る素性語選別処理(条件a)のフローチャートを示している。 本発明の実施形態に係る素性語選別準備処理(条件b)のフローチャートを示している。 本発明の実施形態に係る素性語選別処理(条件b)のフローチャートを示している。 本発明の実施形態に係る素性語選別処理(条件c)のフローチャートを示している。
符号の説明
1 素性語選別装置
3 検索装置
10 素性語記憶手段
11 素性語選別手段
12 素性語データベース

Claims (5)

  1. 通信ネットワーク上に配信されるウェブページを特徴付ける素性語を、前記ウェブページに関連付けて記憶する素性語記憶手段と、
    前記素性語記憶手段に記憶されている前記素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて前記素性語記憶手段に記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別する素性語選別手段と、
    を備えることを特徴とする素性語選別装置。
  2. 前記素性語選別手段は、
    前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページ中に出現する出現頻度をカウントし、前記出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。
  3. 前記素性語選別手段は、
    前記素性語が、前記素性語記憶手段においてその素性語に関連付けて記憶されている前記ウェブページのタイトル又は本文又は概要中に出現する出現頻度をカウントし、その出現頻度が所定の閾値以下となった際に、前記素性語を前記素性語記憶手段から削除することにより、前記素性語記憶手段に記憶されている前記素性語を選別することを特徴とする、請求項1に記載の素性語選別装置。
  4. コンピュータが、
    予め前記コンピュータに記憶され、通信ネットワーク上に配信されるウェブページを特徴付ける素性語毎に、前記素性語を検索キーワードとした検索エンジンによる検索によって、前記素性語に関連付けて記憶されている前記ウェブページが合致した頻度を示すヒット回数をカウントし、前記ヒット回数が、所定の閾値以上又は以下となった際に、前記素性語を削除することにより、前記素性語を選別する素性語選別ステップを、少なくとも実行することを特徴とする方法。
  5. 請求項4に記載の方法をコンピュータに実行させることを特徴とするプログラム。
JP2008166566A 2008-06-25 2008-06-25 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム Active JP5178347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008166566A JP5178347B2 (ja) 2008-06-25 2008-06-25 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008166566A JP5178347B2 (ja) 2008-06-25 2008-06-25 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010009254A true JP2010009254A (ja) 2010-01-14
JP5178347B2 JP5178347B2 (ja) 2013-04-10

Family

ID=41589683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008166566A Active JP5178347B2 (ja) 2008-06-25 2008-06-25 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5178347B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886673A (zh) * 2021-10-28 2022-01-04 盐城至新达科技有限公司 网页信息收集系统和方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12153888B2 (en) * 2021-05-25 2024-11-26 Target Brands, Inc. Multi-task triplet loss for named entity recognition using supplementary text

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP2005309998A (ja) * 2004-04-23 2005-11-04 Fujitsu Ltd コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP2005332080A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259515A (ja) * 1998-03-12 1999-09-24 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP2005309998A (ja) * 2004-04-23 2005-11-04 Fujitsu Ltd コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP2005332080A (ja) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNB200400018001; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 *
JPN6011052970; 北 研二: 情報検索アルゴリズム 初版 第1版, 20020101, 第27-32頁, 共立出版株式会社 南條 光章 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886673A (zh) * 2021-10-28 2022-01-04 盐城至新达科技有限公司 网页信息收集系统和方法

Also Published As

Publication number Publication date
JP5178347B2 (ja) 2013-04-10

Similar Documents

Publication Publication Date Title
US7096214B1 (en) System and method for supporting editorial opinion in the ranking of search results
CN103430172B (zh) 检索装置、检索方法及程序
JP5420243B2 (ja) 所望リポジトリの判定
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
JP6053131B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5329540B2 (ja) ユーザ中心の情報探索方法、コンピュータ読み取り可能な記録媒体およびユーザ中心の情報探索システム
US8019758B2 (en) Generation of a blended classification model
JP5226241B2 (ja) タグを付与する方法
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
JPWO2003034279A1 (ja) 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
JP2003173352A (ja) 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体
JP7256357B2 (ja) 情報処理装置、制御方法、プログラム
JP5178347B2 (ja) 素性語選別装置と分類装置とから構成されるシステム、方法及びプログラム
JP2010003134A (ja) 検索キーワードを推薦するサーバ、方法、およびプログラム
JPH11213000A (ja) インタラクティブ情報検索方法及び装置及びインタラクティブ情報検索プログラムを格納した記憶媒体
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP4973503B2 (ja) ファイル検索プログラム、方法及び装置
JP3880534B2 (ja) 文書分類方法及び文書分類プログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
CN116186198A (zh) 信息检索方法、装置、计算机设备及存储介质
JP6916136B2 (ja) 検索支援装置、検索支援方法、及び検索支援プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120710

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121010

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130108

R150 Certificate of patent or registration of utility model

Ref document number: 5178347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250