JP5547030B2 - 情報分析装置及び方法及びプログラム - Google Patents
情報分析装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5547030B2 JP5547030B2 JP2010233789A JP2010233789A JP5547030B2 JP 5547030 B2 JP5547030 B2 JP 5547030B2 JP 2010233789 A JP2010233789 A JP 2010233789A JP 2010233789 A JP2010233789 A JP 2010233789A JP 5547030 B2 JP5547030 B2 JP 5547030B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- data
- list
- words
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
クエリログからクエリリストを作成するクエリリスト作成手段と、
クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成手段と、
前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、単語データベースに格納する単語データ作成手段と、
前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、単語共起頻度データベースに格納する単語共起頻度データ作成手段と、
前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、単語ベクトルデータベースに格納する単語ベクトル作成手段と、
前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成手段と、を備える。
前記対象単語作成手段で、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる。
単語データベース、単語共起頻度データベース、単語ベクトルデータベースを有する装置において、
クエリリスト作成手段が、クエリログからクエリリストを作成するクエリリスト作成ステップと、
対象単語リスト作成手段が、クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成ステップと、
単語データ作成手段が、前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、前記単語データベースに格納する単語データ作成ステップと、
単語共起頻度データ作成手段が、前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、前記単語共起頻度データベースに格納する単語共起頻度データ作成ステップと、
単語ベクトル作成手段が、前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、前記単語ベクトルデータベースに格納する単語ベクトル作成ステップと、
単語グループデータ作成手段が、前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成ステップと、を行う。
前記対象単語作成ステップで、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる。
"日付時刻<tab>ユーザ識別子<tab>入力クエリ"
のようになっており、同じユーザ識別子であれば同一ユーザを意味する。また、複数の単語を含む入力クエリは空白によって各単語が区切られている。必要ならば、ある期間において、ユーザ識別子が同一で入力クエリも同一である場合は、誤って重複入力されたと考えて、重複分を除去しても構わない。最後にクエリ部分を、メモリに図3の(B)に示すようにクエリリスト170として出力する。
110 クエリリスト作成部
120 対象単語リスト作成部
130 単語データ作成部
140 単語共起頻度データ作成部
150 単語ベクトル作成部
160 単語グループデータ作成部
170 クエリリスト
180 対象単語リスト
190 単語データベース
200 単語共起頻度データベース
210 単語ベクトルデータベース
300 分野限定単語リスト
400 クエリログ
500 単語グループデータベース
Claims (5)
- 特定分野の関連語をグループ化する情報分析装置であって、
クエリログからクエリリストを作成するクエリリスト作成手段と、
クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成手段と、
前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、単語データベースに格納する単語データ作成手段と、
前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、単語共起頻度データベースに格納する単語共起頻度データ作成手段と、
前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、単語ベクトルデータベースに格納する単語ベクトル作成手段と、
前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成手段と、
を備えたことを特徴とする情報分析装置。 - 前記単語データ作成手段は、
前記対象単語作成手段で、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる
請求項1記載の情報分析装置。 - 特定分野の関連語をグループ化する情報分析方法であって、
単語データベース、単語共起頻度データベース、単語ベクトルデータベースを有する装置において、
クエリリスト作成手段が、クエリログからクエリリストを作成するクエリリスト作成ステップと、
対象単語リスト作成手段が、クエリリストから分野限定単語リストに記載の全ての単語と共起する単語およびその共起頻度を求めた後で、前記分野限定単語リスト内に含まれる1つ以上の単語における共起頻度の高い順から一定の上位単語数または共起頻度が一定値以上の前記共起する単語を対象単語として対象単語リストを作成する対象単語リスト作成ステップと、
単語データ作成手段が、前記クエリリストから1単語の頻度の高い順に並べた結果を単語データとして作成し、前記単語データベースに格納する単語データ作成ステップと、
単語共起頻度データ作成手段が、前記クエリリストから任意の2単語とその共起頻度を並べた結果を単語共起頻度データとして、前記単語共起頻度データベースに格納する単語共起頻度データ作成ステップと、
単語ベクトル作成手段が、前記対象単語リストの単語と前記単語データベースの単語データの単語との共起頻度を前記単語共起頻度データベースの前記単語共起頻度データから求めて、対象単語に対し、単語データの各単語を要素とする統計量のベクトルを作成し、前記単語ベクトルデータベースに格納する単語ベクトル作成ステップと、
単語グループデータ作成手段が、前記単語ベクトルデータベースから読み込んだ単語ベクトルデータから、各対象単語のベクトルの類似度を基に所定の条件を満たすまでクラスタリングを実施して、単語グループを作成する単語グループデータ作成ステップと、
を行うことを特徴とする情報分析方法。 - 前記単語データ作成ステップにおいて、
前記対象単語作成ステップで、対象単語と共起する単語について共起頻度の高い順に並べたものを単語データとして作成した結果を用いる
請求項3記載の情報分析方法。 - 請求項1または2に記載の情報分析装置を構成する各手段としてコンピュータを機能させるための情報分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010233789A JP5547030B2 (ja) | 2010-10-18 | 2010-10-18 | 情報分析装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010233789A JP5547030B2 (ja) | 2010-10-18 | 2010-10-18 | 情報分析装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012088854A JP2012088854A (ja) | 2012-05-10 |
JP5547030B2 true JP5547030B2 (ja) | 2014-07-09 |
Family
ID=46260426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010233789A Active JP5547030B2 (ja) | 2010-10-18 | 2010-10-18 | 情報分析装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5547030B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6434954B2 (ja) * | 2016-11-28 | 2018-12-05 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10831752B2 (en) * | 2018-04-25 | 2020-11-10 | International Business Machines Corporation | Semantic relational database operations |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3614765B2 (ja) * | 2000-09-13 | 2005-01-26 | 日本電信電話株式会社 | 概念辞書拡張装置 |
JP2009031931A (ja) * | 2007-07-25 | 2009-02-12 | Univ Waseda | 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体 |
-
2010
- 2010-10-18 JP JP2010233789A patent/JP5547030B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012088854A (ja) | 2012-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101479040B1 (ko) | 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체 | |
KR20080068825A (ko) | 디스플레이를 위한 고품질 리뷰 선택 | |
JP2005128873A (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP2011529600A (ja) | 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置 | |
JP5547669B2 (ja) | 関連語抽出装置、関連語抽出方法、関連語抽出プログラム | |
JP2011070291A (ja) | トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム | |
JP2004362451A (ja) | 検索キーワード情報表示方法及びシステム及び検索キーワード情報表示プログラム | |
JP5547030B2 (ja) | 情報分析装置及び方法及びプログラム | |
JP5271863B2 (ja) | 情報分析装置、情報分析方法および情報分析プログラム | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP5068358B2 (ja) | 回答者抽出装置及びその方法 | |
JP5102883B2 (ja) | ユーザ発言抽出装置とその方法と、プログラム | |
JP2004157649A (ja) | 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
CN104778247B (zh) | 一种基于给定数据资源的信息检索方法及装置 | |
JP6115487B2 (ja) | 情報収集方法、対話システム及び情報収集装置 | |
KR20050109106A (ko) | 통합 검색 결과를 효율적으로 제공하는 검색 서비스 제공방법 및 시스템 | |
JP2007188134A (ja) | 索引ファイルを用いた文書検索の方法 | |
JP2009070210A (ja) | カテゴリ別ランキング作成装置 | |
JP5199968B2 (ja) | キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム | |
WO2012124213A1 (ja) | 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体 | |
JP2015022723A (ja) | 文書を検索する装置及び方法 | |
JP5761033B2 (ja) | 文書分析装置、文書分析方法、およびプログラム | |
JP5557791B2 (ja) | マイクロブログテキスト分類装置、マイクロブログテキスト分類方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121212 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140514 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5547030 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |