JP2010055494A - 検索分析サーバ装置及び検索分析方法 - Google Patents
検索分析サーバ装置及び検索分析方法 Download PDFInfo
- Publication number
- JP2010055494A JP2010055494A JP2008221606A JP2008221606A JP2010055494A JP 2010055494 A JP2010055494 A JP 2010055494A JP 2008221606 A JP2008221606 A JP 2008221606A JP 2008221606 A JP2008221606 A JP 2008221606A JP 2010055494 A JP2010055494 A JP 2010055494A
- Authority
- JP
- Japan
- Prior art keywords
- search
- search word
- department
- frequency table
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 53
- 238000010606 normalization Methods 0.000 claims abstract description 28
- 230000008520 organization Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】組織内の複数の各部門に設置された複数の端末10からそれぞれ送信された検索要求の履歴を、検索単語とその検索要求を行った個人の個人IDと対応付けて記録する検索ログ記録部31と、検索ログを個人ごとに集計し、検索単語とその検索回数とを対応付けた個人別検索単語頻度表を生成する検索単語頻度表生成部32と、個人別検索単語頻度表を部門ごとに集計し、部門別検索単語頻度表を生成する部門集計部33と、部門別検索単語頻度表の検索回数を正規化する検索単語頻度表正規化部34と、正規化して得られた部門ごとの頻度データを基に、部門間の検索単語の類似度を計算する類似度計算部35と、類似度結果を出力する結果出力部36とを備えた。
【選択図】図3
Description
図1に示す検索分析システムは、PC等の各端末10(図1中の端末1〜端末N)と、各端末10から送信された検索要求を分析する検索分析サーバ装置20とがネットワーク30を介して接続されている。各端末10は、組織内の複数の各部門に分散して設けられており、社内LAN等のネットワーク30及び検索分析サーバ装置20を介してインターットなどのネットワーク40に接続されている。
検索分析サーバ装置20は、具体的には例えばパソコンなどのコンピュータで構成され、CPU等の演算部21と、ROMやRAMで構成される主記憶装置22と、ハードディスクなどの補助記憶装置23と、端末10等の外部装置とデータ送信を行うための通信インタフェース(I/F)24と、ディスプレイなどの表示装置25とを備えている。
検索分析サーバ装置20は、検索ログ記録部31と、検索単語頻度表生成部32と、部門集計部33と、検索単語頻度表正規化部34と、部門間類似度計算部35と、結果出力部36と、検索ログデータベース37と、検索単語頻度表データベース38と、部門データベース39とを備えている。各処理部31〜36は、CPUと主記憶装置22内の制御プログラムとにより機能的に実現されている。
個人は、自己の端末10を操作して検索画面を表示し、自己の個人IDと検索文字列を入力して検索を実行する。この検索の際には、文字列を複数入力するものとする。ここで入力される検索語句は、個人の普段の業務に関連する単語であったり、関心のある単語であったりする。また、個人が、ある特定の分野に関して活動を行う場合には、その活動に関連する語句も検索語句として入力されることが想定される。従って、個人から入力される検索語句は、ある特定の分野に関して活動を行おうとする意志を表したものと言える。このように個人から端末10に入力された検索文字列は、個人IDと共に検索要求として検索分析サーバ装置20へと送信される。
以下、検索ログデータベース37に記録された検索ログを利用した検索分析処理の流れを説明する。
図5は、検索分析サーバ装置における検索分析処理の流れを示したフローチャート図である。
検索単語頻度表生成部32は、検索ログデータベース37から検索ログを取得する(S1)。そして、検索ログを各個人IDごとに集計し、当該個人が検索に用いた各文字列と、当該個人によるその文字列の検索回数とからなる個人別検索単語頻度表を生成し(S2)、検索単語頻度表データベース38に記録する。個人別検索単語頻度表が一旦生成された後に、その個人別検索単語頻度表に対応する個人からの検索要求に基づき検索ログデータベース37が更新された場合には、該当の個人別検索単語頻度表も更新する。すなわち、個人が検索に用いた文字列(または、形態素解析の出力である各単語について)が個人別検索単語頻度表に既に存在するかどうかを調べる。もし既に存在すれば、その文字列の頻度の数値を1だけ増加させる。もし存在しなければ、その文字列を検索単語とし、頻度を1とする新たな項目をその個人別検索単語頻度表に追加する。
なお、検索単語頻度表生成部32における個人別検索単語頻度表の生成・更新のタイミングは、検索ログ記録部31で検索ログデータベース37が更新される度に行っても良いし、一定期間ごとに定期的に行うようにしても良い。
図6は、個人別検索単語頻度表の合成処理の説明図である。
まず、個人IDリストのうちの最初の個人IDを取り出し、その個人IDに対応する検索単語頻度表T1を検索単語頻度表データベース38から取得する(S11)。この検索単語頻度表T1をそのまま部門別検索単語頻度表X0とする(S12)。
以上の処理を全ての部門について行い、各部門ごとに、それぞれ部門別検索単語頻度表Xを作成する。
(8,81,7,20,…)
となる。
ただし、検索単語
「テレワーク]、「動向」、「臨場感」、「とは」
は、それぞれ単語ID
1、2、3、4
に対応するものとする。
検索単語頻度表正規化部34では、以上のようにして部門ごとに、正規化された検索単語頻度ベクトルを作成する。
2つの部門X,Yの正規化された検索単語頻度ベクトルをそれぞれ、
この時、部門間の類似度はN次元ベクトルのコサイン距離として以下の式から算出される。
図7に示すように、部門Aで検索頻度が高かった検索単語を複数表示するとともに、部門Aと関連がある可能性のある部門名を、類似度が高い順に順位付けしてリスト表示する。この表示により部門Aでは、例えばテレワークの分野などで部門XXXや部門YYY等と業務の関連性が高いことを知ることができる。
20 検索分析サーバ装置
21 演算部
22 主記憶装置
23 補助記憶装置
25 表示装置
30 ネットワーク
31 検索ログ記録部
32 検索単語頻度表生成部
33 部門集計部
34 検索単語頻度表正規化部
35 部門間類似度計算部
36 結果出力部
37 検索ログデータベース
38 検索単語頻度表データベース
39 部門データベース
Claims (10)
- 組織内の複数の各部門に設置された複数の端末にネットワークを介して接続される検索分析サーバ装置であって、
前記複数の端末からそれぞれ送信された検索要求の履歴を、該検索要求による検索単語とその検索要求を行った個人の個人IDと対応付けて記録する検索ログ記録部と、
前記検索ログ記録部に記録された検索ログを個人ごとに集計し、検索単語とその検索回数とを対応付けた個人別検索単語頻度表を生成する検索単語頻度表生成部と、
前記個人ごとの個人別検索単語頻度表を部門ごとに集計し、部門別検索単語頻度表を生成する部門集計部と、
前記部門別検索単語頻度表の検索回数を正規化する検索単語頻度表正規化部と、
該検索単語頻度表正規化部で正規化して得られた部門ごとの頻度データを基に、部門間の検索単語の類似度を計算する類似度計算部と、
該類似度計算部で計算された類似度結果を出力する結果出力部と
を備えたことを特徴とする検索分析サーバ装置。 - 前記検索単語頻度表正規化部は、前記個人別検索単語頻度表の検索回数を正規化し、前記類似度計算部は、前記検索単語頻度表正規化部で正規化して得られた個人ごとの頻度データ及び前記部門ごとの頻度データを基に、個人間または個人と部門間の検索単語の類似度を計算することを特徴とする請求項1記載の検索分析サーバ装置。
- 前記検索単語頻度表正規化部は、TF−IDF(Term Frequency-Inverse Document Frequency)に基づき検索単語の検索回数を正規化することを特徴とする請求項1または請求項2記載の検索分析サーバ装置。
- 前記検索単語頻度表正規化部は、検索回数を正規化して頻度ベクトルを求め、前記類似度計算部は、前記類似度を、前記頻度ベクトルのコサイン距離として計算することを特徴とする請求項1乃至請求項3の何れかに記載の検索分析サーバ装置。
- 前記結果出力部は、部門ごとに、その部門で検索回数が多い検索単語と、その部門と類似度が高い部門名を類似度が高い順に示したリストとを類似度結果として作成して出力することを特徴とする請求項1乃至請求項4の何れかに記載の検索分析サーバ装置。
- 組織内の複数の各部門に設置された複数の端末からそれぞれ送信された検索要求の履歴を、該検索要求による検索単語とその検索要求を行った個人の個人IDとを対応づけて検索ログ記録部に検索ログとして記録する記録工程と、
前記検索ログ記録部に記録された検索ログを個人ごとに集計し、検索単語とその検索回数とを対応付けた個人別検索単語頻度表を生成する検索単語頻度表生成工程と、
前記個人ごとの個人別検索単語頻度表を部門ごとに集計し、部門別検索単語頻度表を生成する部門集計工程と、
前記部門別検索単語頻度表の検索回数を正規化する検索単語頻度表正規化部と、
前記正規化して得られた部門ごとの頻度データを基に、部門間の検索単語の類似度を計算する類似度計算工程と、
前記計算された類似度結果を出力する結果出力工程と
を備えることを特徴とする検索分析方法。 - 前記検索単語頻度表正規化工程は、前記個人別検索単語頻度表の検索回数を正規化しし、前記類似度計算工程は、前記正規化して得られた個人ごとの頻度データ及び前記部門ごとの頻度データを基に、個人間または個人と部門間の検索単語の類似度を計算することを特徴とする請求項6記載の検索分析方法。
- 前記検索単語頻度表正規化工程では、TF−IDF(Term Frequency-Inverse Document Frequency)に基づき検索単語の頻度を正規化することを特徴とする請求項6または請求項7記載の検索分析方法。
- 前記検索単語頻度表正規化工程では、検索回数を正規化して頻度ベクトルを求め、前記類似度計算部は、前記類似度を、前記頻度ベクトルのコサイン距離として計算することを特徴とする請求項6乃至請求項8の何れかに記載の検索分析方法。
- 前記結果出力工程では、部門ごとに、その部門で検索回数が多い検索単語と、その部門と類似度が高い部門名を類似度が高い順に示したリストとを類似度結果として作成して出力することを特徴とする請求項6乃至請求項9の何れかに記載の検索分析方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008221606A JP5233518B2 (ja) | 2008-08-29 | 2008-08-29 | 検索分析サーバ装置及び検索分析方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008221606A JP5233518B2 (ja) | 2008-08-29 | 2008-08-29 | 検索分析サーバ装置及び検索分析方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010055494A true JP2010055494A (ja) | 2010-03-11 |
| JP5233518B2 JP5233518B2 (ja) | 2013-07-10 |
Family
ID=42071317
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008221606A Expired - Fee Related JP5233518B2 (ja) | 2008-08-29 | 2008-08-29 | 検索分析サーバ装置及び検索分析方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5233518B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012014267A (ja) * | 2010-06-29 | 2012-01-19 | Canon Electronics Inc | 情報分析装置、情報分析方法、情報分析システムおよびプログラム |
| WO2014141606A1 (ja) * | 2013-03-15 | 2014-09-18 | 日本電気株式会社 | 通信システム |
| JP2019016174A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社日立製作所 | 情報処理装置および情報処理方法 |
| CN111367971A (zh) * | 2020-03-30 | 2020-07-03 | 中国建设银行股份有限公司 | 一种基于数据挖掘的金融系统异常辅助分析方法及装置 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102073833B1 (ko) * | 2019-11-05 | 2020-02-05 | (주)키온비트 | 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 |
Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002014971A (ja) * | 2000-06-30 | 2002-01-18 | Sharp Corp | 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2003076676A (ja) * | 2001-06-22 | 2003-03-14 | Toyo Eng Corp | 報告書作成を支援する装置、プログラムおよび方法 |
| JP2003167891A (ja) * | 2001-11-29 | 2003-06-13 | Nippon Telegr & Teleph Corp <Ntt> | 単語重要度算出方法、装置、プログラム、および記録媒体 |
| JP2003173352A (ja) * | 2001-12-05 | 2003-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 |
| JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
| JP2004348626A (ja) * | 2003-05-26 | 2004-12-09 | Hitachi Ltd | 文書検索方法及び文書検索システム |
| JP2005339510A (ja) * | 2001-11-01 | 2005-12-08 | Matsushita Electric Ind Co Ltd | 特許文書評価部署割り当てシステム |
| JP2006185279A (ja) * | 2004-12-28 | 2006-07-13 | Kan:Kk | アクセス元把握装置及びアクセス元把握方法 |
| JP2006331070A (ja) * | 2005-05-26 | 2006-12-07 | Ntt Docomo Inc | コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法 |
| JP2007148948A (ja) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | 文書検索プログラム |
| JP2007213401A (ja) * | 2006-02-10 | 2007-08-23 | Kddi Corp | ユーザ嗜好の音楽データに基づいてコミュニティを構成するコミュニティサイトサーバ及びプログラム |
| JP2007286951A (ja) * | 2006-04-18 | 2007-11-01 | Rakuten Inc | 検索履歴保存システム |
-
2008
- 2008-08-29 JP JP2008221606A patent/JP5233518B2/ja not_active Expired - Fee Related
Patent Citations (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002014971A (ja) * | 2000-06-30 | 2002-01-18 | Sharp Corp | 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体 |
| JP2003076676A (ja) * | 2001-06-22 | 2003-03-14 | Toyo Eng Corp | 報告書作成を支援する装置、プログラムおよび方法 |
| JP2005339510A (ja) * | 2001-11-01 | 2005-12-08 | Matsushita Electric Ind Co Ltd | 特許文書評価部署割り当てシステム |
| JP2003167891A (ja) * | 2001-11-29 | 2003-06-13 | Nippon Telegr & Teleph Corp <Ntt> | 単語重要度算出方法、装置、プログラム、および記録媒体 |
| JP2003173352A (ja) * | 2001-12-05 | 2003-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 |
| JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
| JP2004348626A (ja) * | 2003-05-26 | 2004-12-09 | Hitachi Ltd | 文書検索方法及び文書検索システム |
| JP2006185279A (ja) * | 2004-12-28 | 2006-07-13 | Kan:Kk | アクセス元把握装置及びアクセス元把握方法 |
| JP2006331070A (ja) * | 2005-05-26 | 2006-12-07 | Ntt Docomo Inc | コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法 |
| JP2007148948A (ja) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | 文書検索プログラム |
| JP2007213401A (ja) * | 2006-02-10 | 2007-08-23 | Kddi Corp | ユーザ嗜好の音楽データに基づいてコミュニティを構成するコミュニティサイトサーバ及びプログラム |
| JP2007286951A (ja) * | 2006-04-18 | 2007-11-01 | Rakuten Inc | 検索履歴保存システム |
Non-Patent Citations (4)
| Title |
|---|
| CSNG199801241001; 藤木 直人、外1名: 'マルチグループにおけるノウハウ共有の分析' テレビジョン学会技術報告 第17巻,第50号, 19930917, p.1-8, 社団法人テレビジョン学会 * |
| CSNG200600908001; 平松 治彦、外2名: '部門間の関係に基づくインシデントレポート共有システムに関する研究' 電子情報通信学会技術研究報告 第106巻,第150号, 20060707, p.1-6, 社団法人電子情報通信学会 * |
| JPN6012067492; 平松 治彦、外2名: '部門間の関係に基づくインシデントレポート共有システムに関する研究' 電子情報通信学会技術研究報告 第106巻,第150号, 20060707, p.1-6, 社団法人電子情報通信学会 * |
| JPN6012067495; 藤木 直人、外1名: 'マルチグループにおけるノウハウ共有の分析' テレビジョン学会技術報告 第17巻,第50号, 19930917, p.1-8, 社団法人テレビジョン学会 * |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2012014267A (ja) * | 2010-06-29 | 2012-01-19 | Canon Electronics Inc | 情報分析装置、情報分析方法、情報分析システムおよびプログラム |
| WO2014141606A1 (ja) * | 2013-03-15 | 2014-09-18 | 日本電気株式会社 | 通信システム |
| JP2014179860A (ja) * | 2013-03-15 | 2014-09-25 | Nec Corp | 通信システム |
| JP2019016174A (ja) * | 2017-07-07 | 2019-01-31 | 株式会社日立製作所 | 情報処理装置および情報処理方法 |
| CN111367971A (zh) * | 2020-03-30 | 2020-07-03 | 中国建设银行股份有限公司 | 一种基于数据挖掘的金融系统异常辅助分析方法及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP5233518B2 (ja) | 2013-07-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Currie et al. | The conundrum of police officer-involved homicides: Counter-data in Los Angeles County | |
| US9135291B2 (en) | System and method for determining similarities between online entities | |
| TWI601088B (zh) | Topic management network public opinion evaluation management system and method | |
| JP6369053B2 (ja) | マッチング装置、マッチング方法及びプログラム | |
| Shmueli | Research dilemmas with behavioral big data | |
| CN112771564A (zh) | 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎 | |
| Cabanac | Accuracy of inter-researcher similarity measures based on topical and social clues | |
| KR101425054B1 (ko) | 전문가 검색 시스템 및 방법 | |
| JP5233518B2 (ja) | 検索分析サーバ装置及び検索分析方法 | |
| JP5266975B2 (ja) | 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体 | |
| US9058328B2 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
| CN115470361A (zh) | 数据检测方法以及装置 | |
| El-Korany | Integrated expert recommendation model for online communities | |
| Sharara et al. | Active surveying: A probabilistic approach for identifying key opinion leaders | |
| Iqbal et al. | The assessment of perceived information pollution in banking sector: A scale development and validation study | |
| Frederick | Gender turnover and roll call voting in the US Senate | |
| Diaz-Granados et al. | Monitoring gender equity in health using gender-sensitive indicators: a cross-national study | |
| Yu | Revisiting unemployment levels and trends in South Africa since the transition | |
| Asim et al. | Content based call for papers recommendation to researchers | |
| CN119761847A (zh) | 基于企业用户画像分析的用户解决方案推荐方法 | |
| JP2010282403A (ja) | 文書検索方法 | |
| JP2017151574A (ja) | ユーザ情報処理サーバ及びユーザ情報の処理方法 | |
| Chen et al. | Understanding user’s identifiability on social media: A supervised machine learning and self-reporting investigation | |
| Dinh et al. | A framework to discover potential ideas of new product development from crowdsourcing application | |
| Li et al. | Arnetminer: expertise oriented search using social networks |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110519 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121217 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121225 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130208 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130311 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5233518 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |
