JP5439100B2 - 文書解析システム - Google Patents
文書解析システム Download PDFInfo
- Publication number
- JP5439100B2 JP5439100B2 JP2009218496A JP2009218496A JP5439100B2 JP 5439100 B2 JP5439100 B2 JP 5439100B2 JP 2009218496 A JP2009218496 A JP 2009218496A JP 2009218496 A JP2009218496 A JP 2009218496A JP 5439100 B2 JP5439100 B2 JP 5439100B2
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- document
- keyword
- data
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
CGMとして代表的なものにはブログやSNS(Social Networking Service)があり、どちらもユーザが個人的な体験や日記を書いたり、自分が気になったニュースやサイトなどのURL(Uniform Resource Locator)を寸評付きで紹介したりして、幅広い話題を時系列で比較的頻繁に更新するのが特徴である。
この技術により、単語単位ではなく文書単位で概念を比較することができるようになった。検索を実行する際にも単語ではなく文章を入力として、その文章から得られたベクトルと各文書ベクトルを比較し、その概念が近い文書を得ることが出来る。また、ベクトルで表される概念の関連性を示すことで、キーワードマッチングの回数よりも文書間の関係を詳細に分析することが出来る。
また、論旨の一貫した学術論文等の文書については正確な文書ベクトルが得られやすいが、話題が移り変わることが多い日記などの文書においては、正確な文書ベクトルが得られにくい。
分析対象である複数の文書データと、キーワードと関連分野とを含む複数のキーワードデータ、および評価語句と関連分野と当該評価語句に対する肯定的評価または否定的評価の段階を客観的に示す評価値とを含む複数の評価語句データを記憶する記憶手段と、
前記記憶手段に記憶されている前記各文書データに含まれる各単語に対して、前記記憶手段に記憶されている前記キーワードデータに含まれる各キーワードのマッチング検索を行い、前記文書データごとに当該各文書データに含まれる各キーワードと当該各キーワードが出現する出現回数とを求めるマッチング検索手段と、
前記各文書データから前記マッチング検索手段によって求められた各キーワードが現れる位置それぞれに対して前後の位置に含まれる評価語句を抽出し、当該各キーワードと当該抽出された各評価語句の関連分野が一致している場合に、前記評価語句データに含まれる評価値を取得し、当該取得した各評価値を、前記抽出された各評価語句と前記マッチング検索手段によって求められた各キーワードとの位置関係および前記抽出された各評価語句の文書内の位置に基づいて補正し、当該補正された各評価値に基づいて当該各キーワードに対する評価が数値化された文書内における当該各キーワードの評価値を求める文書内分析手段と、
前記文書内分析手段によって求められた文書内における各キーワードの評価値に基づいて、2以上の文書データについて当該各キーワードを評価するための評価値を求める文書間分析手段と、
を備えることを特徴とする。
この手法では、感想や評価を表す語句を、その語句の利用される分野や、その語句が示す肯定的評価と否定的評価の段階を客観的に表した数値と共にデータベースに事前に登録する。そして、分析対象の文書にその語句が含まれている場合に、その語句から付近のキーワードを評価することができると判断する。また、感想や評価を表す語句の文章中の位置も考慮して文章全体を分析する。たとえば、タイトルに含まれている語句や、文章の締めで使われている語句は強調していると判断して文章全体を分析する。
この分析を蓄積された文書それぞれに対して行って各キーワードに対する文書ごとの評価を得る。そして、複数の文書について各キーワードに対する評価を様々な面から集計することによって、ユーザ全体の流行やその変化を捉る。
文書解析システム100は、処理装置110と、記憶装置120と、入力装置130と、出力装置140とを備える。
メモリ112は、RAM(Random Access Memory)やROM(Read Only Memory)等を含む。メモリ112には、分析プログラムが記憶装置120等から読み込まれる。この分析プログラムはマッチング検索処理部113と文書内分析処理部114と文書間分析処理部115とで構成される
CPU111は、メモリ112に読み込まれた分析プログラムを実行する。
文書群に関するデータ121は、分析する文書それぞれに対し、文書データ124とマッチング検索結果データ125と文書内分析結果データ126とを含む。ここで、文書データ124はユーザの日記の内容などの分析対象の文書そのものである。また、マッチング検索結果データ125は、マッチング検索処理部113が文書データに含まれるキーワードを検索した結果のデータである。文書内分析結果データ126は、文書内分析処理部114が評価語句により分析した結果のデータである。文書データ124とマッチング検索結果データ125と文書内分析結果データ126の詳細については後述する。
検索用データ122は、キーワードデータ127と評価語句データ128とを含む。キーワードデータ127は検索に利用する単語(キーワード)とその単語が関連する関連分野の情報等を含む。評価語句データ128はユーザが感想や評価に利用する単語(評価語句)と、その単語が関連する関連分野と、その単語の評価を客観的に示す評価値等を含む。キーワードデータ127と評価語句データ128の詳細については後述する。
文書間分析結果データ123は、文書間分析処理部115が2以上の文書データ124について分析した結果のデータである。文書間分析処理部115の詳細については後述する。
文書解析システム100の運用には、SNSに参加するユーザが使用するユーザ端末201とSNSシステム202が関わる。
まず、マッチング検索処理部113が、文書データ124とキーワードデータ127を入力としたマッチング検索処理を行い、マッチング検索結果データ125を作成する。マッチング検索は、文書データ124に含まれる各単語に対してキーワードデータ127に含まれる各キーワードのマッチング検索を行い、マッチング結果を得る。キーワードマッチングは通常の検索処理であり、説明は省略する。
次に文書間分析処理部115が、文書内分析結果データ126とキーワードデータ127、さらに得られた場合にはSNSの閲覧データ301等を入力として、文書間分析処理(詳細については後述する。)によって文書間分析結果データ123を作成し、出力する。
文書データ124は、図1中の文書データ124の一例である。SNSに記録されるユーザの書き込みデータから分析に必要な部分がコピーされたものであり、文書ID(Identifier)・タイトル・内容・ユーザ名・作成時間などの属性を持つ。
キーワードデータ127は、図1中のキーワードデータ127の一例である。検索や分析に利用するキーワードをリストにしたものである。キーワードデータ127は、キーワードの内容と、評価語句データとの関連を示す関連分野などの属性を持つ。例では、関連分野を単語で示しているが、分野間の関連をさらに詳細に分析する場合には、関連分野をベクトルで表しても良い。
また、同じ評価語句であっても、利用される関連分野によって印象の違いがあるため、評価語句の関連分野毎に評価値が設定されている場合もある。たとえば、「まずい」という評価は多くの場合に否定評価とされるが、特に食事・グルメの評価に使われる場合は強い否定評価と取る事ができる。通信関係における「重い」などの表現も同様と考えられる。
文書内分析処理は、文書データ124、マッチング検索結果データ125、キーワードデータ127、評価語句データ128を分析して文書内分析結果データ126を作成する。
CPU111は、まず、記憶装置120から分析対象の文書データ124、キーワードデータ127、マッチング検索結果データ125、評価語句データ128を読みこむ(S101)。CPU111は、キーワードデータ127とマッチング検索結果データ125から文書データ124に含まれるキーワードが分かるので、そのうち1つを選び、そのキーワードが文書に現れる位置を確認する。CPU111は、キーワードが現れる位置それぞれに対して、文書の前後の位置に含まれる評価語句を検索し、抜き出す(S103)。
文書間分析処理部115では、文書内分析結果データ126をキーワードごとや期間ごと等に集計したものを元に市場で流行しているキーワードやその変化を分析する。市場の分析は目的によって様々な手段があるため、ここでは代表的な3つの手段のみを挙げる。
図4の例に挙げた文書内分析結果データ126を集計することで、これまで蓄積された文書で話題となったキーワードと、そのキーワードが登場する文書数、さらに評価が肯定的なものと否定的なものの回数、全ての文書での評価の平均値等を得ることができる(301)。
(1)体験談や日記の多い文章に対して、その文章と特定キーワードの関連性と、キーワードに関する書き手の肯定的評価と否定的評価を分析する事が出来る。
(2)多数のユーザによる上記の評価を集計・分析することによって、ユーザの嗜好性や流行の変化、ユーザの注目するキーワードを把握し、ユーザに対して話題を還元したり、ビジネスに利用したりする事が出来る。
Claims (1)
- 分析対象である複数の文書データと、キーワードと関連分野とを含む複数のキーワードデータ、および評価語句と関連分野と当該評価語句に対する肯定的評価または否定的評価の段階を客観的に示す評価値とを含む複数の評価語句データを記憶する記憶手段と、
前記記憶手段に記憶されている前記各文書データに含まれる各単語に対して、前記記憶手段に記憶されている前記キーワードデータに含まれる各キーワードのマッチング検索を行い、前記文書データごとに当該各文書データに含まれる各キーワードと当該各キーワードが出現する出現回数とを求めるマッチング検索手段と、
前記各文書データから前記マッチング検索手段によって求められた各キーワードが現れる位置それぞれに対して前後の位置に含まれる評価語句を抽出し、当該各キーワードと当該抽出された各評価語句の関連分野が一致している場合に、前記評価語句データに含まれる評価値を取得し、当該取得した各評価値を、前記抽出された各評価語句と前記マッチング検索手段によって求められた各キーワードとの位置関係および前記抽出された各評価語句の文書内の位置に基づいて補正し、当該補正された各評価値に基づいて当該各キーワードに対する評価が数値化された文書内における当該各キーワードの評価値を求める文書内分析手段と、
前記文書内分析手段によって求められた文書内における各キーワードの評価値に基づいて、2以上の文書データについて当該各キーワードを評価するための評価値を求める文書間分析手段と、
を備えることを特徴とする文書解析システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009218496A JP5439100B2 (ja) | 2009-09-24 | 2009-09-24 | 文書解析システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009218496A JP5439100B2 (ja) | 2009-09-24 | 2009-09-24 | 文書解析システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011070252A JP2011070252A (ja) | 2011-04-07 |
JP5439100B2 true JP5439100B2 (ja) | 2014-03-12 |
Family
ID=44015507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009218496A Expired - Fee Related JP5439100B2 (ja) | 2009-09-24 | 2009-09-24 | 文書解析システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5439100B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013003663A (ja) * | 2011-06-13 | 2013-01-07 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
CN103186555B (zh) * | 2011-12-28 | 2016-05-11 | 腾讯科技(深圳)有限公司 | 评价信息生成方法及系统 |
JP6529133B2 (ja) * | 2016-01-29 | 2019-06-12 | Kddi株式会社 | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 |
CN116957633B (zh) * | 2023-09-19 | 2023-12-01 | 武汉创知致合科技有限公司 | 一种基于智能家居场景的产品设计用户体验评价方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5151991B2 (ja) * | 2006-12-18 | 2013-02-27 | 日本電気株式会社 | 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム |
JP5178233B2 (ja) * | 2008-02-21 | 2013-04-10 | 株式会社東芝 | 表示データ生成装置及び方法 |
-
2009
- 2009-09-24 JP JP2009218496A patent/JP5439100B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011070252A (ja) | 2011-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bouadjenek et al. | Social networks and information retrieval, how are they converging? A survey, a taxonomy and an analysis of social information retrieval approaches and platforms | |
Li et al. | Deriving market intelligence from microblogs | |
US10430806B2 (en) | Input/output interface for contextual analysis engine | |
US9990422B2 (en) | Contextual analysis engine | |
US10235681B2 (en) | Text extraction module for contextual analysis engine | |
CN104866554B (zh) | 一种基于社会化标注的个性化搜索方法及系统 | |
CN109815386B (zh) | 一种基于用户画像的构建方法、装置及存储介质 | |
CN100444591C (zh) | 获取网页关键字的方法及其应用系统 | |
Shahid et al. | Insights into relevant knowledge extraction techniques: a comprehensive review | |
JPWO2009096523A1 (ja) | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム | |
US9262510B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
Lipczak et al. | The impact of resource title on tags in collaborative tagging systems | |
US20150120708A1 (en) | Information aggregation, classification and display method and system | |
Bhardwaj et al. | Web scraping using summarization and named entity recognition (ner) | |
JP5439100B2 (ja) | 文書解析システム | |
Navarro Bullock et al. | Accessing information with tags: search and ranking | |
Najadat et al. | Detecting Arabic spam reviews in social networks based on classification algorithms | |
Jiang et al. | Beyond click graph: Topic modeling for search engine query log analysis | |
US20110252313A1 (en) | Document information selection method and computer program product | |
Bouadjenek et al. | Personalized social query expansion using social annotations | |
Cortez et al. | A flexible approach for extracting metadata from bibliographic citations | |
JP4853915B2 (ja) | 検索システム | |
Hurtado Martín et al. | An exploratory study on content-based filtering of call for papers | |
JP5292336B2 (ja) | 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム | |
US20220138407A1 (en) | Document Writing Assistant with Contextual Search Using Knowledge Graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |