JP5233518B2 - 検索分析サーバ装置及び検索分析方法 - Google Patents
検索分析サーバ装置及び検索分析方法 Download PDFInfo
- Publication number
- JP5233518B2 JP5233518B2 JP2008221606A JP2008221606A JP5233518B2 JP 5233518 B2 JP5233518 B2 JP 5233518B2 JP 2008221606 A JP2008221606 A JP 2008221606A JP 2008221606 A JP2008221606 A JP 2008221606A JP 5233518 B2 JP5233518 B2 JP 5233518B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- department
- search word
- frequency table
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 56
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000010606 normalization Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 230000008520 organization Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1に示す検索分析システムは、PC等の各端末10(図1中の端末1〜端末N)と、各端末10から送信された検索要求を分析する検索分析サーバ装置20とがネットワーク30を介して接続されている。各端末10は、組織内の複数の各部門に分散して設けられており、社内LAN等のネットワーク30及び検索分析サーバ装置20を介してインターットなどのネットワーク40に接続されている。
検索分析サーバ装置20は、具体的には例えばパソコンなどのコンピュータで構成され、CPU等の演算部21と、ROMやRAMで構成される主記憶装置22と、ハードディスクなどの補助記憶装置23と、端末10等の外部装置とデータ送信を行うための通信インタフェース(I/F)24と、ディスプレイなどの表示装置25とを備えている。
検索分析サーバ装置20は、検索ログ記録部31と、検索単語頻度表生成部32と、部門集計部33と、検索単語頻度表正規化部34と、部門間類似度計算部35と、結果出力部36と、検索ログデータベース37と、検索単語頻度表データベース38と、部門データベース39とを備えている。各処理部31〜36は、CPUと主記憶装置22内の制御プログラムとにより機能的に実現されている。
個人は、自己の端末10を操作して検索画面を表示し、自己の個人IDと検索文字列を入力して検索を実行する。この検索の際には、文字列を複数入力するものとする。ここで入力される検索語句は、個人の普段の業務に関連する単語であったり、関心のある単語であったりする。また、個人が、ある特定の分野に関して活動を行う場合には、その活動に関連する語句も検索語句として入力されることが想定される。従って、個人から入力される検索語句は、ある特定の分野に関して活動を行おうとする意志を表したものと言える。このように個人から端末10に入力された検索文字列は、個人IDと共に検索要求として検索分析サーバ装置20へと送信される。
以下、検索ログデータベース37に記録された検索ログを利用した検索分析処理の流れを説明する。
図5は、検索分析サーバ装置における検索分析処理の流れを示したフローチャート図である。
検索単語頻度表生成部32は、検索ログデータベース37から検索ログを取得する(S1)。そして、検索ログを各個人IDごとに集計し、当該個人が検索に用いた各文字列と、当該個人によるその文字列の検索回数とからなる個人別検索単語頻度表を生成し(S2)、検索単語頻度表データベース38に記録する。個人別検索単語頻度表が一旦生成された後に、その個人別検索単語頻度表に対応する個人からの検索要求に基づき検索ログデータベース37が更新された場合には、該当の個人別検索単語頻度表も更新する。すなわち、個人が検索に用いた文字列(または、形態素解析の出力である各単語について)が個人別検索単語頻度表に既に存在するかどうかを調べる。もし既に存在すれば、その文字列の頻度の数値を1だけ増加させる。もし存在しなければ、その文字列を検索単語とし、頻度を1とする新たな項目をその個人別検索単語頻度表に追加する。
なお、検索単語頻度表生成部32における個人別検索単語頻度表の生成・更新のタイミングは、検索ログ記録部31で検索ログデータベース37が更新される度に行っても良いし、一定期間ごとに定期的に行うようにしても良い。
図6は、個人別検索単語頻度表の合成処理の説明図である。
まず、個人IDリストのうちの最初の個人IDを取り出し、その個人IDに対応する検索単語頻度表T1を検索単語頻度表データベース38から取得する(S11)。この検索単語頻度表T1をそのまま部門別検索単語頻度表X0とする(S12)。
以上の処理を全ての部門について行い、各部門ごとに、それぞれ部門別検索単語頻度表Xを作成する。
(8,81,7,20,…)
となる。
ただし、検索単語
「テレワーク]、「動向」、「臨場感」、「とは」
は、それぞれ単語ID
1、2、3、4
に対応するものとする。
検索単語頻度表正規化部34では、以上のようにして部門ごとに、正規化された検索単語頻度ベクトルを作成する。
2つの部門X,Yの正規化された検索単語頻度ベクトルをそれぞれ、
この時、部門間の類似度はN次元ベクトルのコサイン距離として以下の式から算出される。
図7に示すように、部門Aで検索頻度が高かった検索単語を複数表示するとともに、部門Aと関連がある可能性のある部門名を、類似度が高い順に順位付けしてリスト表示する。この表示により部門Aでは、例えばテレワークの分野などで部門XXXや部門YYY等と業務の関連性が高いことを知ることができる。
20 検索分析サーバ装置
21 演算部
22 主記憶装置
23 補助記憶装置
25 表示装置
30 ネットワーク
31 検索ログ記録部
32 検索単語頻度表生成部
33 部門集計部
34 検索単語頻度表正規化部
35 部門間類似度計算部
36 結果出力部
37 検索ログデータベース
38 検索単語頻度表データベース
39 部門データベース
Claims (10)
- 組織内の複数の各部門に設置された複数の端末にネットワークを介して接続される検索分析サーバ装置であって、
前記複数の端末からそれぞれ送信された検索要求の履歴を、該検索要求による検索単語とその検索要求を行った個人の個人IDと対応付けて記録する検索ログ記録部と、
前記検索ログ記録部に記録された検索ログを個人ごとに集計し、検索単語とその検索回数とを対応付けた個人別検索単語頻度表を生成する検索単語頻度表生成部と、
前記個人ごとの個人別検索単語頻度表を部門ごとに集計し、部門別検索単語頻度表を生成する部門集計部と、
前記部門別検索単語頻度表の検索回数を正規化する検索単語頻度表正規化部と、
該検索単語頻度表正規化部で正規化して得られた部門ごとの頻度データを基に、部門間の検索単語の類似度を計算する類似度計算部と、
該類似度計算部で計算された類似度結果を出力する結果出力部と
を備えたことを特徴とする検索分析サーバ装置。 - 前記検索単語頻度表正規化部は、前記個人別検索単語頻度表の検索回数を正規化し、前記類似度計算部は、前記検索単語頻度表正規化部で正規化して得られた個人ごとの頻度データ及び前記部門ごとの頻度データを基に、個人間または個人と部門間の検索単語の類似度を計算することを特徴とする請求項1記載の検索分析サーバ装置。
- 前記検索単語頻度表正規化部は、TF−IDF(Term Frequency-Inverse Document Frequency)に基づき検索単語の検索回数を正規化することを特徴とする請求項1または請求項2記載の検索分析サーバ装置。
- 前記検索単語頻度表正規化部は、検索回数を正規化して頻度ベクトルを求め、前記類似度計算部は、前記類似度を、前記頻度ベクトルのコサイン距離として計算することを特徴とする請求項1乃至請求項3の何れかに記載の検索分析サーバ装置。
- 前記結果出力部は、部門ごとに、その部門で検索回数が多い検索単語と、その部門と類似度が高い部門名を類似度が高い順に示したリストとを類似度結果として作成して出力することを特徴とする請求項1乃至請求項4の何れかに記載の検索分析サーバ装置。
- 組織内の複数の各部門に設置された複数の端末にネットワークを介して接続される検索分析サーバ装置における検索分析方法であって、
前記検索分析サーバ装置は、
組織内の複数の各部門に設置された複数の端末からそれぞれ送信された検索要求の履歴を、該検索要求による検索単語とその検索要求を行った個人の個人IDとを対応づけて検索ログ記録部に検索ログとして記録する記録工程と、
前記検索ログ記録部に記録された検索ログを個人ごとに集計し、検索単語とその検索回数とを対応付けた個人別検索単語頻度表を生成する検索単語頻度表生成工程と、
前記個人ごとの個人別検索単語頻度表を部門ごとに集計し、部門別検索単語頻度表を生成する部門集計工程と、
前記部門別検索単語頻度表の検索回数を正規化する検索単語頻度表正規化部と、
前記正規化して得られた部門ごとの頻度データを基に、部門間の検索単語の類似度を計算する類似度計算工程と、
前記計算された類似度結果を出力する結果出力工程と
を行うことを特徴とする検索分析方法。 - 前記検索単語頻度表正規化工程は、前記個人別検索単語頻度表の検索回数を正規化しし、前記類似度計算工程は、前記正規化して得られた個人ごとの頻度データ及び前記部門ごとの頻度データを基に、個人間または個人と部門間の検索単語の類似度を計算することを特徴とする請求項6記載の検索分析方法。
- 前記検索単語頻度表正規化工程では、TF−IDF(Term Frequency-Inverse Document Frequency)に基づき検索単語の頻度を正規化することを特徴とする請求項6または請求項7記載の検索分析方法。
- 前記検索単語頻度表正規化工程では、検索回数を正規化して頻度ベクトルを求め、前記類似度計算部は、前記類似度を、前記頻度ベクトルのコサイン距離として計算することを特徴とする請求項6乃至請求項8の何れかに記載の検索分析方法。
- 前記結果出力工程では、部門ごとに、その部門で検索回数が多い検索単語と、その部門と類似度が高い部門名を類似度が高い順に示したリストとを類似度結果として作成して出力することを特徴とする請求項6乃至請求項9の何れかに記載の検索分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008221606A JP5233518B2 (ja) | 2008-08-29 | 2008-08-29 | 検索分析サーバ装置及び検索分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008221606A JP5233518B2 (ja) | 2008-08-29 | 2008-08-29 | 検索分析サーバ装置及び検索分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055494A JP2010055494A (ja) | 2010-03-11 |
JP5233518B2 true JP5233518B2 (ja) | 2013-07-10 |
Family
ID=42071317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008221606A Expired - Fee Related JP5233518B2 (ja) | 2008-08-29 | 2008-08-29 | 検索分析サーバ装置及び検索分析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5233518B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102073833B1 (ko) * | 2019-11-05 | 2020-02-05 | (주)키온비트 | 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012014267A (ja) * | 2010-06-29 | 2012-01-19 | Canon Electronics Inc | 情報分析装置、情報分析方法、情報分析システムおよびプログラム |
JP2014179860A (ja) * | 2013-03-15 | 2014-09-25 | Nec Corp | 通信システム |
CN111367971A (zh) * | 2020-03-30 | 2020-07-03 | 中国建设银行股份有限公司 | 一种基于数据挖掘的金融系统异常辅助分析方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3722672B2 (ja) * | 2000-06-30 | 2005-11-30 | シャープ株式会社 | 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体,及び設定単語関係者度数集計装置 |
JP2003076676A (ja) * | 2001-06-22 | 2003-03-14 | Toyo Eng Corp | 報告書作成を支援する装置、プログラムおよび方法 |
JP2005339510A (ja) * | 2001-11-01 | 2005-12-08 | Matsushita Electric Ind Co Ltd | 特許文書評価部署割り当てシステム |
JP2003167891A (ja) * | 2001-11-29 | 2003-06-13 | Nippon Telegr & Teleph Corp <Ntt> | 単語重要度算出方法、装置、プログラム、および記録媒体 |
JP2003173352A (ja) * | 2001-12-05 | 2003-06-20 | Nippon Telegr & Teleph Corp <Ntt> | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 |
JP2004206517A (ja) * | 2002-12-26 | 2004-07-22 | Nifty Corp | ホットキーワード提示方法及びホットサイト提示方法 |
JP2004348626A (ja) * | 2003-05-26 | 2004-12-09 | Hitachi Ltd | 文書検索方法及び文書検索システム |
JP2006185279A (ja) * | 2004-12-28 | 2006-07-13 | Kan:Kk | アクセス元把握装置及びアクセス元把握方法 |
JP2006331070A (ja) * | 2005-05-26 | 2006-12-07 | Ntt Docomo Inc | コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法 |
JP2007148948A (ja) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | 文書検索プログラム |
JP2007213401A (ja) * | 2006-02-10 | 2007-08-23 | Kddi Corp | ユーザ嗜好の音楽データに基づいてコミュニティを構成するコミュニティサイトサーバ及びプログラム |
JP4976044B2 (ja) * | 2006-04-18 | 2012-07-18 | 楽天株式会社 | 検索履歴保存システム |
-
2008
- 2008-08-29 JP JP2008221606A patent/JP5233518B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102073833B1 (ko) * | 2019-11-05 | 2020-02-05 | (주)키온비트 | 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 |
WO2021091124A1 (ko) * | 2019-11-05 | 2021-05-14 | (주)키온비트 | 복수의 파일들 각각에 대한 피쳐들의 분포 정보를 기초로 기준 파일에 대한 유사 파일의 탐색이 가능한 전자 장치 및 동작 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP2010055494A (ja) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220005125A1 (en) | Systems and methods for collecting and processing alternative data sources for risk analysis and insurance | |
Currie et al. | The conundrum of police officer-involved homicides: Counter-data in Los Angeles County | |
US10922657B2 (en) | Using an employee database with social media connections to calculate job candidate reputation scores | |
US9135291B2 (en) | System and method for determining similarities between online entities | |
JP6369053B2 (ja) | マッチング装置、マッチング方法及びプログラム | |
Sharara et al. | Active surveying: A probabilistic approach for identifying key opinion leaders | |
Abbasi et al. | A social network system for analyzing publication activities of researchers | |
US10331790B1 (en) | System and method for actionizing comments | |
Cook et al. | Aggregating incomplete lists of journal rankings: An application to academic accounting journals | |
Altin | Does resource-based view explain outsourcing intention: Revenue management perspective | |
KR101425054B1 (ko) | 전문가 검색 시스템 및 방법 | |
JP5233518B2 (ja) | 検索分析サーバ装置及び検索分析方法 | |
Rowe | Forecasting audience increase on youtube | |
EP2613275B1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
Judges et al. | A critique of the historical clinical risk–20, version 3, risk assessment instrument | |
Terranova et al. | Perceptions of pretrial risk assessment: An examination across role in the initial pretrial release decision | |
JP5266975B2 (ja) | 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体 | |
JP7280705B2 (ja) | 機械学習装置、プログラム及び機械学習方法 | |
Whittington et al. | Unidimensionality of the strengths and vulnerabilities scales in the short-term assessment of risk and treatability (START) | |
Kim et al. | Topic-Driven SocialRank: Personalized search result ranking by identifying similar, credible users in a social network | |
Iqbal et al. | The assessment of perceived information pollution in banking sector: A scale development and validation study | |
Yu | Revisiting unemployment levels and trends in South Africa since the transition | |
JP6752330B1 (ja) | 機械学習ベースのマッチング装置およびマッチング方法 | |
CN115470361A (zh) | 数据检测方法以及装置 | |
JP7369920B2 (ja) | サーバおよびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130311 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5233518 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |