JP5596623B2 - 文書情報分析装置、文書情報分析方法、文書情報分析プログラム - Google Patents
文書情報分析装置、文書情報分析方法、文書情報分析プログラム Download PDFInfo
- Publication number
- JP5596623B2 JP5596623B2 JP2011120081A JP2011120081A JP5596623B2 JP 5596623 B2 JP5596623 B2 JP 5596623B2 JP 2011120081 A JP2011120081 A JP 2011120081A JP 2011120081 A JP2011120081 A JP 2011120081A JP 5596623 B2 JP5596623 B2 JP 5596623B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- document
- aggregation
- tuple
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 39
- 230000002776 aggregation Effects 0.000 claims description 62
- 238000004220 aggregation Methods 0.000 claims description 62
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 47
- 230000006870 function Effects 0.000 description 36
- 238000000034 method Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 7
- 238000003672 processing method Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 5
- 238000012552 review Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)製品名をキーワードとしてWeb検索を行う。
(2)検索結果の中からレビューらしいものを探す。
(3)各記事に書かれている評判に関する用語を集計する。
(4)各用語が、好評か不評か、どのような属性(色や形など)について書かれたのかを分類する。
(5)記事を書いた著者の性別や年代毎に用語の集計を行う。
(6)リニューアルの前後で書き込み件数などに変化があったか否かを調べる。
(7)作業(1)〜(6)に関してクロス集計を行う。
(1)情報要素
情報要素とは、集計の対象となる情報の単位を示し、複数の属性(情報要素属性)によって構成され、一つの文書中には複数の情報要素が存在する。このような情報要素属性の組を情報要素タプルと呼ぶ。すなわち、文書中に存在する各評判情報は、<評価対象、評価属性、評価表現、評価極性>の4つの情報要素属性からなる情報要素タプルで表現することができる。例えば、アップル社の「iPad(登録商標)」に対する評判情報であれば、≪評価対象=iPad、評価属性=操作、評価表現=直感的、評価極性=好評≫などで表現できる。
(2)文書属性
文書属性とは、文書に対して1対1に割り振られる属性を意味する。文書属性の一例としては、文書のURL、作成日、文書種別(ブログ、レビューなど)があげられる。
(3)文書集合属性
文書集合属性とは、文書に対して割り振られる属性を意味する。例えば、ある著者の記述したブログ記事すべてを文書集合にとると、著者の性別、年代などが文書集合属性に該当する。
図1に基づき前記分析装置の構成例を説明する。この分析装置1は、検索エンジン4と連係して文書集合Pに含まれる情報を集約する。ここでは前記分析装置1は、ユーザ端末2とインターネット経由で接続されているものとする。
まず、事前処理としての情報要素等の格納方法を説明する。ここでは文書解析機能部3は、情報要素の集約処理に先立って全文検索エンジン4のクローリングなどで収集された文書集合Pの各文書を解析し、分析の対象となる用語の抽出を試みる。このとき分析対象の用語が抽出できた場合には、すべての情報要素属性の値が決まった完全な情報要素タプルを生成する。
つぎに情報要素の集約処理を説明する。ここではアプリケーションプログラム6からの問い合わせ式が前記分析装置1に入力されると、情報集約機能部5は次の処理を実行する。具体的には、問い合わせ式は、式(1)のBNF(Backus−Naur Form)によって定義される。
まず、以下のタプル評価関数を定義する。
・タプル評価関数
入力:入力キーワード,本文,部分情報要素タプル
出力:スコア
この評価関数では、入力された入力キーワードと、部分情報要素タプルとが結び付いて完全な情報要素タプルとなるか否かのスコア計算を行う。この評価関数はタスクに応じて選択される。例えば入力キーワードおよび部分情報要素タプルの本文中の出現位置や、各タプルのもつ評価対象に依存しないスコアを用いることができる。ここで”本文”としては、単純な文字列に加えて、文字位置をキーとした特徴(形態素、格情報、係り受けなど)を持たせることも可能である。
“いずれかの情報要素タプルの評価対象が‘NTT’であり,かついずれかの情報要素の評価極性が‘好評’である”,
または,
“本文に‘NTT’を含み,かついずれかの部分情報要素の評価極性が‘好評’である”
という条件を満たす文書をS02で検索することを意味する。
BNF中のグループ化関数は次の通りとする。
・グループ化関数
入力:情報要素タプル,パラメータ
出力:情報要素タプル集合の配列
ここで式(1)の集計条件に列記された各グループ化関数は、情報要素タプル集合が与えられたときに次の処理を実行する。
(A)各情報要素タプルに対して、何らかの基準で集計キーを動的に生成する。
(B)集計キーが同じ情報要素タプルを同じグループとして一つにまとめる。
(C)必要に応じて集計キーの順序でグループをソートする。
・cl([属性名集合]):属性名集合で指定された属性値を、その類似度に応じてクラスタリングし、類似するタプル集合をクラスタとする。
・v(属性名):属性名で指定された属性値が完全一致するものをグループとする。
本発明は、前記分析装置1の文書解析機能部3.情報集約機能部5の一部もしくは全部として、コンピュータを機能させる文書情報分析プログラムとして構成することもできる。このプログラムによれば、前述した事前処理(情報要素等の格納方法)と、情報要素の集約処理(検索条件の処理方法・集計条件の処理方法)の一部あるいは全部をコンピュータに実行させることが可能となる。
2…ユーザ端末
3…文書解析機能部(文書解析機能手段)
4…全文検索エンジン
5…情報集約機能部(情報集約機能手段)
6…アプリケーションプログラム
7…データベース(保存手段)
P…文書集合
Claims (7)
- 電子文書中に含まれる情報を集約し、該集約の結果を出力する文書情報分析装置であって、
あらかじめ電子文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する文書解析機能手段と、
検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計して出力する情報集約機能手段と、を備え、
文書解析機能手段は、あらかじめ抽出できなかった属性に関しては、事前に抽出できた属性および、本文と、位置情報または形態素情報または格情報または係り受け情報またはこれらのいずれかの一つまたは複数の情報を保存手段に保存し、
情報集約機能手段は、問い合わせ式が入力された時点で、問い合わせ式に含まれる入力キーワードと、保存データとを用いて、事前に抽出できた属性が入力キーワードと結び付くか否かを判定し、結び付くと判定された場合には入力キーワードを分析対象語を表す属性にセットしたタプルからなるリレーションを生成する
ことを特徴とする文書情報分析装置。 - 文書解析機能手段は、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存する一方、
情報集約機能手段は、保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する
ことを特徴とする請求項1記載の文書情報分析装置。 - 情報集約機能手段は、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、
二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する
ことを特徴とする請求項1または2のいずれか1項に記載の文書情報分析装置。 - 電子文書中に含まれる情報を集約し、該集約の結果を出力する装置の実行する文書情報分析方法であって、
あらかじめ電子文書中から集計対象の情報単位となる情報要素が持つ属性を抽出し、抽出された属性の集合からなるタプルを保存手段に保存する文書解析ステップと、
検索条件と集計条件からなる問い合わせ式が入力されると、保存手段の保存データ中から検索条件に合致するタプル集合を選択し、選択されたタプル集合を集計条件にしたがって集計して出力する情報集約ステップと、を有し、
文書解析機能ステップは、あらかじめ抽出できなかった属性に関しては、事前に抽出できた属性および、本文と、位置情報または形態素情報または格情報または係り受け情報またはこれらのいずれかの一つまたは複数の情報を保存手段に保存し、
情報集約機能ステップは、問い合わせ式が入力された時点で、問い合わせ式に含まれる入力キーワードと、保存データとを用いて、事前に抽出できた属性が入力キーワードと結び付くか否かを判定し、結び付くと判定された場合には入力キーワードを分析対象語を表す属性にセットしたタプルからなるリレーションを生成する
ことを特徴とする文書情報分析方法。 - 文書解析ステップにおいて、情報要素の属性名に応じたプレフィックスを各属性値に付与して保存手段に保存し、
情報集約ステップにおいて、保存手段の保存データをプレフィックスと属性値を結合した文字列で文書検索し、検索された電子文書のタプル集合と検索条件として入力されたキーワードとが関連する度合に応じてタプル集合を選択する
ことを特徴とする請求項4記載の文書情報分析方法。 - 情報集約ステップにおいて、集計条件中に集計用関数の名称が列記されていれば、最初に記述された集計用関数をもってタプル集合をグループ化し、
二番目以降に記述された集計用関数をもって、ひとつ前に記述された集計用関数でグループ化された各グループを順次再グループ化する
ことを特徴とする請求項4または5のいずれか1項に記載の文書情報分析方法。 - 請求項1〜3のいずれか1項に記載の文書情報分析装置を構成する各手段としてコンピュータを機能させるための文書情報分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011120081A JP5596623B2 (ja) | 2011-05-30 | 2011-05-30 | 文書情報分析装置、文書情報分析方法、文書情報分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011120081A JP5596623B2 (ja) | 2011-05-30 | 2011-05-30 | 文書情報分析装置、文書情報分析方法、文書情報分析プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012248049A JP2012248049A (ja) | 2012-12-13 |
JP5596623B2 true JP5596623B2 (ja) | 2014-09-24 |
Family
ID=47468429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011120081A Active JP5596623B2 (ja) | 2011-05-30 | 2011-05-30 | 文書情報分析装置、文書情報分析方法、文書情報分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5596623B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304260B1 (en) * | 1998-06-24 | 2001-10-16 | Lucent Technologies, Inc. | Method and apparatus for generating and displaying views of hierarchically clustered data |
JP4207438B2 (ja) * | 2002-03-06 | 2009-01-14 | 日本電気株式会社 | Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム |
JP4671440B2 (ja) * | 2007-12-04 | 2011-04-20 | 日本電信電話株式会社 | 評判関係抽出装置、その方法およびプログラム |
JP4508264B2 (ja) * | 2008-04-28 | 2010-07-21 | 凸版印刷株式会社 | データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体 |
JP5153443B2 (ja) * | 2008-04-30 | 2013-02-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
JP2010097262A (ja) * | 2008-10-14 | 2010-04-30 | Keyence Corp | データベース生成装置、データベース生成方法及びコンピュータプログラム |
-
2011
- 2011-05-30 JP JP2011120081A patent/JP5596623B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012248049A (ja) | 2012-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101793222B1 (ko) | 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트 | |
US8996559B2 (en) | Assisted query formation, validation, and result previewing in a database having a complex schema | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
JP5721818B2 (ja) | 検索におけるモデル情報群の使用 | |
JP6007088B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
JP6056610B2 (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
US9552415B2 (en) | Category classification processing device and method | |
CN110321446B (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
US20150347423A1 (en) | Methods for completing a user search | |
Maciołek et al. | Cluo: Web-scale text mining system for open source intelligence purposes | |
JP6260678B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
Hu et al. | Embracing information explosion without choking: Clustering and labeling in microblogging | |
JP2020521246A (ja) | ネットワークアクセス可能なコンテンツの自動化された分類 | |
JP5596623B2 (ja) | 文書情報分析装置、文書情報分析方法、文書情報分析プログラム | |
TWI547888B (zh) | A method of recording user information and a search method and a server | |
JP6173958B2 (ja) | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 | |
Liu et al. | A query suggestion method based on random walk and topic concepts | |
JP6557959B2 (ja) | 情報提示プログラム、情報提示方法及び情報提示装置 | |
KR20190072883A (ko) | 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법 | |
JP2015014993A (ja) | 検索意図辞書作成装置、検索意図辞書作成方法及び検索意図辞書作成プログラム | |
US11704350B2 (en) | Search term extraction and optimization from natural language text files | |
TW201824028A (zh) | 法學資料搜尋系統、搜尋處理方法及電腦可讀取紀錄媒體 | |
Ben Kraiem et al. | Olap4tweets: Multidimensional modeling of tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130510 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5596623 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |