JP4640554B2 - サーバ装置、情報処理方法およびプログラム - Google Patents
サーバ装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP4640554B2 JP4640554B2 JP2008216465A JP2008216465A JP4640554B2 JP 4640554 B2 JP4640554 B2 JP 4640554B2 JP 2008216465 A JP2008216465 A JP 2008216465A JP 2008216465 A JP2008216465 A JP 2008216465A JP 4640554 B2 JP4640554 B2 JP 4640554B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- control unit
- keyword
- predetermined period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 57
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims description 62
- 239000000284 extract Substances 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 12
- 230000003203 everyday effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 description 40
- 238000012790 confirmation Methods 0.000 description 29
- 230000002354 daily effect Effects 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 19
- 230000014509 gene expression Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Description
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである汎用語リストを作成する制御部を有し、
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する構成である。
前記制御部は、外部からの指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
前記制御部は、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記制御部は、前記汎用語のリストである汎用語リストを作成し、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
前記制御部は、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記制御部は、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記制御部は、前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記制御部は、前記第2のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記制御部は、前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力するものである。
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成し、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する処理を前記コンピュータに実行させるものである。
本実施形態では、汎用語リストの作成の前提となる情報検索方法を説明する。本実施形態の情報検索方法を実施するための構成を説明する。
express or エクスプレス or えくすぷれす・・・式1
検索サーバ10は、ネットワーク100上で公開されているブログから、検索式1により含有ブログを抽出する。
(express or エクスプレス or えくすぷれす)and Express5800・・・式2−1
(express or エクスプレス or えくすぷれす)and つくばエクスプレス・・・式2−2
(express or エクスプレス or えくすぷれす)and エクスプレス予約・・・式2−3
検索サーバ10は、式2−1により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、“Express5800”の関連語である単語Cとなる(ステップ108)。同様にして、式2−2により抽出した全ての含有ブログから、“つくばエクスプレス”の関連語である単語Cが「電車(85)、秋葉原(65)、TSUKUBA(30)・・・」と求まる。式2−3により抽出した全ての含有ブログから、“エクスプレス予約”の関連語である単語Cが「新幹線(60)、特急(40)、電車(40)、・・・」と求まる。
(express or エクスプレス or えくすぷれす or Express5800)not(つくばエクスプレス or エクスプレス予約)・・・式3
検索サーバ10は、式3により抽出した全ての含有ブログに対して、単語Aを求めたときと同様にして、名詞を抽出し、名詞毎の使用回数を求める。その結果、使用回数の多いものから順に並べると、「NEC(100)、サーバ(85)、PC(50)、・・・」となった。これらが、検索後の関連語である単語Eとなる(ステップ114)。
操作1:検索対象について思いつくキーワードを入力する。
操作2:表示される単語A(表記ゆれ語)に対して、同時に表示された単語Cを参考に、関係/無関係を選択する。
操作3:表示される単語E(検索後の関連語)がユーザの検索したいものと関連しているかどうかを判断する。
操作4:関連していない語が含まれていたら、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
(単語Aの抽出方法)
(i)入力された検索条件でテキストを抽出する。
(ii)テキストに対して言語解析エンジンで単語毎に抽出する。
(iii)単語のうち名詞の中で、最も出現数が多い単語(高頻度語)から順に列挙する。
(iV)各単語に対して、入力された検索条件にヒットするかマッチングにより調べる。完全一致であれば、消去し、部分一致であれば、単語Aとして表示する。単語Aは本発明の第1の単語に相当する。
単語Aの(i)から(iii)まで同様に実施した後、各単語に対して、入力された検索条件にヒットするかをマッチングにより調べる。一致しなければ、単語Bとして表示する。単語Bは本発明の第3の単語に相当する。
(i)[入力された検索条件and単語A]でテキストブログを抽出する。
(ii)単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Cは本発明の第2の単語に相当する。
本実施形態は、第1の実施形態に比べてユーザが入力する検索条件をより充実させることで、検索対象のブログをより効率よく収集することを可能にしたものである。
操作1:検索対象について思いつくキーワードの入力(AND、OR条件)、禁止ワード(NOT条件)の設定を行う。図9は本実施形態のキーワード入力画面の一例を示す図である。図9に示す画面では、図4に示した画面に、禁止ワードの入力欄が追加されている。
操作2:表示される単語A(表記ゆれ語)、単語B(関連語)に対して関係/無関係を選択する。
操作3:データを更新し、単語A、単語Bを再計算させ、再表示させる。
操作4:関係のない単語があまりにも多すぎるようであれば、操作1に戻り原因となる単語を条件式から削除する。修正できるレベルであれば、操作2に戻りやり直す。表示された語が全て関連していれば検索式の編集を終了し、編集が終了した検索式で検索を実行する。
(express or エクスプレス or えくすぷれす)and NEC・・・式4
となる。
(単語Dの抽出方法)
(i)[入力された検索条件and単語B]でテキストブログを抽出する。
(ii)第1の実施形態の単語Aの抽出方法における(ii)、(iii)と同様に行う。単語Dは本発明の第4の単語に相当する。
本実施形態は、第1の実施形態で抽出される単語Cおよび第2の実施形態で抽出される単語B、単語Dの上位に汎用語が入らないようにするものである。汎用語とは、文章の中で汎用的に使われる言葉である。汎用語として、例えば、時間、ブログ、日記などの単語がある。
2008/1/1 1位 ブログ 500件
2008/1/1 2位 時間 480件
…
2008/1/2 1位 祝日 600件
2008/1/2 2位 時間 580件
…
上述の例では、2008年1月1日の日次ベースでは、「ブログ」という単語が500件使用され、1位にランクされていることを示している。また、2008年1月2日の日次ベースでは、「祝日」という単語が600件使用され、1位にランクされていることを示している。
条件1:ブログに出現する頻度が非常に高い単語であること。
条件2:毎日、定常的に利用される単語であること(毎日の出現する頻度に変動が少ない単語であること)。
Score(w) = αF(w)×(1+log T(w))×ΣHt(w)・・・式5
と表される。
)の総和である。tは、指定された期間内の日付である。
Ht(w)=−Ft(w)/F(w)×log(Ft(w)/F(w))・・・式6
式6のFt(w)は、日付tでの単語w出現件数を示す。
Score(w) = αP(w)×(1+log T(w))×ΣHt(w)・・・式7
と表される。
す。Ftは、日付tでの全単語出現件数の総和を示す。T(w)およびαは第1の方法と同様である。
Ht(w)=−Pt(w)/P(w)×log(Pt(w)/P(w))・・・式8
式8のPt(w)は日付tでの単語w出現確率(=Ft(w)/Ft)を示す。
Score(w) = αO(w)×(1+log T(w))×ΣHt(w)・・・式9
と表される。
Ht(w)=−Ot(w)/O(w)×log(Ot(w)/O(w))・・・式10
式10のOt(w)は、単語w日次出現順位ポイントを示す。高順位ほど高ポイントになるように点をつける。例えば、1位:5000点、2位:4999点、・・・などである。
(1)検索語確認画面データのスコア(使用回数、件数)に汎用語スコアの逆数(1/汎用語スコア)を乗算し、検索語確認画面における汎用語の出力順位を下げる。汎用語スコアは汎用語順位が高いほど高いスコアである。
(2)マッチングにより汎用語と一致した単語を検索語確認画面から完全に非表示にする。
総件数が上位(既定件数以上)でかつ日次集計の件数の変動が少ない(規定件数値内で変動)ものが選ばれる。
次に、情報量、単語出現確率を利用する第2の方法の場合を説明する。
次に、情報量、単語出現順位を利用する第3の方法の場合を説明する。
51 記憶部
52 制御部
Claims (18)
- 外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである汎用語リストを作成する制御部を有し、
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、サーバ装置。 - 外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、該汎用語のリストである汎用語リストを作成する制御部を有し、
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、サーバ装置。 - 外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、前記単語と前記スコアとを含むリストである汎用語リストを作成する制御部を有し、
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、サーバ装置。 - 外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、前記単語と前記スコアとを含むリストである汎用語リストを作成する制御部を有し、
前記制御部は、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、該第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、抽出した単語の使用回数をカウントし、該使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、該第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、サーバ装置。 - 前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項1から4のいずれか1項記載のサーバ装置。
- 前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項1から5のいずれか1項記載のサーバ装置。
- 情報を記録するための格納部と接続されたサーバ装置の制御部による情報処理方法であって、
前記制御部は、外部からの指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
前記制御部は、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記制御部は、前記汎用語のリストである汎用語リストを作成し、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
前記制御部は、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記制御部は、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記制御部は、前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記制御部は、前記第2のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記制御部は、前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、情報処理方法。 - 情報を記録するための格納部と接続されたサーバ装置の制御部による情報処理方法であって、
前記制御部は、外部からの指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
前記制御部は、第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記制御部は、前記汎用語のリストである汎用語リストを作成し、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
前記制御部は、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記制御部は、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記制御部は、前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記制御部は、前記第2のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記制御部は、前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、情報処理方法。 - 情報を記録するための格納部と接続されたサーバ装置の制御部による情報処理方法であって、
前記制御部は、外部からの指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
前記制御部は、それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記制御部は、前記単語と前記スコアとを含むリストである汎用語リストを作成し、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
前記制御部は、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記制御部は、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記制御部は、前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記制御部は、前記第2のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記制御部は、前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する、情報処理方法。 - 情報を記録するための格納部と接続されたサーバ装置の制御部による情報処理方法であって、
前記制御部は、外部からの指示により、または、所定の時刻になったとき、前記格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
前記制御部は、それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記制御部は、前記単語と前記スコアとを含むリストである汎用語リストを作成し、
前記制御部は、検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
前記制御部は、収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記制御部は、前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記制御部は、前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記制御部は、前記第2のテキストから抽出した単語の使用回数をカウントし、
前記制御部は、前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記制御部は、前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する、情報処理方法。 - 前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項7から10のいずれか1項記載の情報処理方法。
- 前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項7から11のいずれか1項記載の情報処理方法。
- コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成し、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する処理を前記コンピュータに実行させるためのプログラム。 - コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
第1の所定の期間の出現頻度が第1の既定値より高く、かつ、前記第1の所定の期間よりも短い第2の所定の期間毎の出現頻度が第2の既定値範囲内で変動している単語を汎用語として決定し、
前記汎用語のリストである汎用語リストを作成し、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する処理を前記コンピュータに実行させるためのプログラム。 - コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記単語と前記スコアとを含むリストである汎用語リストを作成し、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語のランクを下げて前記第1の単語とともに出力する処理を前記コンピュータに実行させるためのプログラム。 - コンピュータに実行させるためのプログラムであって、
外部からの指示により、または、所定の時刻になったとき、格納部に記憶されているテキストを収集し、収集したテキストから単語を抽出し、
それぞれの前記単語に対し、第1の所定の期間の出現頻度と、該第1の所定の期間よりも短い第2の所定の期間毎の出現頻度とをもとに、スコアを算出し、
前記単語と前記スコアとを含むリストである汎用語リストを作成し、
検索のためのキーワードが入力されると、該キーワードを含むテキストを前記格納部に記憶されているテキストから収集し、
収集した第1のテキストから名詞を抽出し、前記キーワードと部分一致する名詞を第1の単語として決定し、
前記第1のテキストのうち該第1の単語を含む第2のテキストを抽出し、
前記第2のテキストから名詞、動詞または形容詞の少なくとも1つである単語を抽出し、
前記第2のテキストから抽出した単語の使用回数をカウントし、
前記第2のテキストから抽出した単語の前記使用回数が上位所定のランク内である単語を前記第1の単語の関連語である第2の単語に決定し、
前記第2の単語について前記汎用語リストに含まれる単語と一致する単語を削除して前記第1の単語とともに出力する処理を前記コンピュータに実行させるためのプログラム。 - 前記第2の所定の期間毎は、日毎、週毎、または月毎のいずれかである請求項13から16のいずれか1項記載のプログラム。
- 前記第1の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位のいずれかの種類であり、前記第1の所定の期間の出現頻度の種類に対応して前記第2の所定の期間の出現頻度は、該期間における前記単語の出現件数、出現件数の割合、または出現件数の順位である請求項13から17のいずれか1項記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216465A JP4640554B2 (ja) | 2008-08-26 | 2008-08-26 | サーバ装置、情報処理方法およびプログラム |
US12/543,263 US8838616B2 (en) | 2008-08-26 | 2009-08-18 | Server device for creating list of general words to be excluded from search result |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216465A JP4640554B2 (ja) | 2008-08-26 | 2008-08-26 | サーバ装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055155A JP2010055155A (ja) | 2010-03-11 |
JP4640554B2 true JP4640554B2 (ja) | 2011-03-02 |
Family
ID=41726833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008216465A Active JP4640554B2 (ja) | 2008-08-26 | 2008-08-26 | サーバ装置、情報処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8838616B2 (ja) |
JP (1) | JP4640554B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5113936B1 (ja) * | 2011-11-24 | 2013-01-09 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体 |
US9424360B2 (en) * | 2013-03-12 | 2016-08-23 | Google Inc. | Ranking events |
JP7074999B2 (ja) * | 2017-11-30 | 2022-05-25 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
JP2019153119A (ja) * | 2018-03-05 | 2019-09-12 | コニカミノルタ株式会社 | 文章抽出装置、プログラム |
JP7016405B2 (ja) * | 2018-03-27 | 2022-02-04 | 株式会社Nttドコモ | 対話サーバ |
US11687534B2 (en) * | 2021-06-17 | 2023-06-27 | Huawei Technologies Co., Ltd. | Method and system for detecting sensitive data |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
JP2001325272A (ja) * | 2000-05-16 | 2001-11-22 | Internatl Business Mach Corp <Ibm> | 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置 |
JP2002117043A (ja) * | 2000-10-11 | 2002-04-19 | Ricoh Co Ltd | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 |
JP2002140366A (ja) * | 2000-10-31 | 2002-05-17 | Ricoh Co Ltd | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 |
JP2004054882A (ja) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | 類義語検索装置、方法、プログラム及び記憶媒体 |
JP2004139222A (ja) * | 2002-10-16 | 2004-05-13 | Internatl Business Mach Corp <Ibm> | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
WO2005066837A1 (ja) * | 2003-12-26 | 2005-07-21 | Matsushita Electric Industrial Co., Ltd. | 辞書作成装置および辞書作成方法 |
JP2006146802A (ja) * | 2004-11-24 | 2006-06-08 | Mitsubishi Electric Corp | テキストマイニング装置およびテキストマイニング方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57125469A (en) | 1981-01-26 | 1982-08-04 | Fujitsu Ltd | System for extracting key word |
US7324990B2 (en) * | 2002-02-07 | 2008-01-29 | The Relegence Corporation | Real time relevancy determination system and a method for calculating relevancy of real time information |
JP4654780B2 (ja) * | 2005-06-10 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US20070067320A1 (en) * | 2005-09-20 | 2007-03-22 | International Business Machines Corporation | Detecting relationships in unstructured text |
-
2008
- 2008-08-26 JP JP2008216465A patent/JP4640554B2/ja active Active
-
2009
- 2009-08-18 US US12/543,263 patent/US8838616B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11259515A (ja) * | 1998-03-12 | 1999-09-24 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 |
JP2001325272A (ja) * | 2000-05-16 | 2001-11-22 | Internatl Business Mach Corp <Ibm> | 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置 |
JP2002117043A (ja) * | 2000-10-11 | 2002-04-19 | Ricoh Co Ltd | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 |
JP2002140366A (ja) * | 2000-10-31 | 2002-05-17 | Ricoh Co Ltd | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 |
JP2004054882A (ja) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | 類義語検索装置、方法、プログラム及び記憶媒体 |
JP2004139222A (ja) * | 2002-10-16 | 2004-05-13 | Internatl Business Mach Corp <Ibm> | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム |
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
WO2005066837A1 (ja) * | 2003-12-26 | 2005-07-21 | Matsushita Electric Industrial Co., Ltd. | 辞書作成装置および辞書作成方法 |
JP2006146802A (ja) * | 2004-11-24 | 2006-06-08 | Mitsubishi Electric Corp | テキストマイニング装置およびテキストマイニング方法 |
Also Published As
Publication number | Publication date |
---|---|
US20100057724A1 (en) | 2010-03-04 |
US8838616B2 (en) | 2014-09-16 |
JP2010055155A (ja) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4587236B2 (ja) | 情報検索装置、情報検索方法、およびプログラム | |
US20220188309A1 (en) | Methods, systems, and media for interpreting queries | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
US10140368B2 (en) | Method and apparatus for generating a recommendation page | |
US8612435B2 (en) | Activity based users' interests modeling for determining content relevance | |
JP5224868B2 (ja) | 情報推薦装置および情報推薦方法 | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
US7860878B2 (en) | Prioritizing media assets for publication | |
KR102001647B1 (ko) | 지식 패널들을 컨텍스트화 | |
EP2462517A1 (en) | Query suggestions from documents | |
JP4640554B2 (ja) | サーバ装置、情報処理方法およびプログラム | |
US20080243835A1 (en) | Program, method and apparatus for web page search | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP2003091552A (ja) | 検索要求情報抽出方法及びその実施システム並びにその処理プログラム | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
JP5072792B2 (ja) | 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ | |
CN110717008B (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
JP5777663B2 (ja) | 検索支援装置及び検索支援プログラム | |
Tian et al. | A prediction model for web search hit counts using word frequencies | |
JP2010282403A (ja) | 文書検索方法 | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 | |
US20150302307A1 (en) | Journal Manuscript Submission Decision Support Method and System | |
JP6131983B2 (ja) | 情報検索装置、情報検索方法およびそのプログラム | |
CN116955759A (zh) | 信息显示方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100811 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101102 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4640554 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131210 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |