JP2011014086A - 文書変遷抽出装置及びそのプログラム - Google Patents

文書変遷抽出装置及びそのプログラム Download PDF

Info

Publication number
JP2011014086A
JP2011014086A JP2009159920A JP2009159920A JP2011014086A JP 2011014086 A JP2011014086 A JP 2011014086A JP 2009159920 A JP2009159920 A JP 2009159920A JP 2009159920 A JP2009159920 A JP 2009159920A JP 2011014086 A JP2011014086 A JP 2011014086A
Authority
JP
Japan
Prior art keywords
document
transition
documents
attribute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009159920A
Other languages
English (en)
Inventor
Shinsuke Ueki
伸補 植木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems and Services Ltd
Original Assignee
Hitachi Systems and Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems and Services Ltd filed Critical Hitachi Systems and Services Ltd
Priority to JP2009159920A priority Critical patent/JP2011014086A/ja
Publication of JP2011014086A publication Critical patent/JP2011014086A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】管理された複数文書及び版が持つ属性情報及び要約に基づいて、トレンド推移を表示する技術を提供する。
【解決手段】文書変遷抽出装置は、登録対象の文書及びその属性情報を登録する入力手段1と、入力手段1によって登録された複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報の抽出を行う文書変遷抽出手段2と、文書の変遷経緯のトレンド推移をグラフ表示する出力手段3と、を備える。文書変遷抽出装置は、キーワードの登場回数及びスコアを抽出し、文書変遷として蓄積、管理することで、文書や版が持つ時系列情報とあわせて表示し、文書や版の変遷、キーワードのトレンドの可視化を行う。
【選択図】図1

Description

この発明は、文書管理システムに登録した文書の活用手法に関し、文書の変遷経緯のトレンド推移を抽出し、表示することを可能とする技術に関するものである。
従来の文書管理システムでは、文書本文に対して属性を付与することで、文書のキーワードを用いて文書の特定を行ったり、文書本文を確認することなく文書の概要を掴んだりすることができた。また、属性付与の手間を軽減する目的で、文書の要約抽出による概念検索や、文書本文内の文字情報を利用した全文検索が実用的な手段として利用されている。例えば、特許文献1には概念検索システム及び概念検索方法が記載されている。
特開2007−026116号公報
上述した文書管理システムでは、個々の文書を管理するのみで、複数文書の関連づけ、傾向分析は操作者の技量を必要とする手作業に依存していた。例えば、技術情報に対する特定のカテゴリについて時系列の動向を把握するためには、複数の文書を取り出して内容を確認して情報収集したり、他の手段による情報収集とあわせた分析を行ったりする必要があった。また、個々の文書についても前回からの変更点、過去の経緯を抽出するためには、過去の版の内容を確認し、差異を手動で抽出する必要があった。
本発明は、上記問題を解決し、文書管理システムに管理されている複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報を抽出し、差分変遷のトレンド推移をグラフ表示する文書変遷抽出装置及び文書変遷抽出プログラムを得ることを目的とするものである。
上記目的を達成するために、本発明においては、文書本文の自然言語処理によって得られる属性情報及び要約から、キーワードの登場回数及びスコアを抽出し、文書変遷として蓄積、管理することで、文書や版が持つ時系列情報とあわせて表示し、文書や版の変遷、キーワードのトレンドの可視化を特徴とする。
本発明によれば、登録対象文書の特徴であるキーワードを自動的に分類し、時系列にトレンド表示することができ、文書管理のためのキーワード付けの煩雑さを軽減した上で、目的とする文書やその関連文書の推移の傾向を把握、特異点の抽出が可能となる。
本発明の実施の形態1による文書変遷抽出装置の構成を示す説明図である。 入力手段1、文書変遷抽出手段2、出力手段3の処理の流れを示すフローチャートである。 入力手段1及び文書変遷抽出手段2における情報の流れを示す説明図である。 文書変遷抽出手段2における属性分類方法を示す説明図である。 属性分類及びスコアを保持するテーブル構造の説明図である。 出力手段3における操作画面及びトレンド推移グラフの説明図である。
以下、本発明の実施の形態を図を用いて詳細に説明する。
実施の形態1は、文書管理システムの一部を実現する文書変遷抽出装置及び文書変遷抽出プログラムであり、文書管理システムに管理されている複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報を抽出し、差分変遷のトレンド推移をグラフ表示する文書変遷抽出装置及び文書変遷抽出プログラムである。
図1は実施の形態1における文書変遷抽出装置の構成を示す構成図であり、本実施の形態の説明に必要な部分のみを示している。
図1において、文書変遷抽出装置は、文書管理システムに登録対象文書を格納する入力手段1、入力手段1で登録した文書の本文から文書情報の変遷を示す情報である文書変遷情報を抽出する文書変遷抽出手段2、文書変遷抽出手段2で抽出した文書情報の変遷の画面表示を行う出力手段3、登録対象文書の名称や登録日、版番号(属性情報)や要約から抽出されたキーワードなどを格納する属性管理DB4、文書変遷情報を格納する文書変遷管理DB5、文書管理システムに登録されている文書そのものを格納する文書本文DB6で構成される。
入力手段1では、文書管理システムに登録対象文書を格納する。登録対象文書本文は、文書本文DB6として、必要に応じて入力した属性を属性管理DB4に格納する。
文書変遷抽出手段2は、登録対象文書から抽出した要約を抽出する。この要約の抽出については従来技術を利用する。詳細は図3にて後述する。続いて登録対象文書本文から抽出した要約から属性(キーワード)の抽出及びその分類を行い、文書変遷DBに時系列ごとに抽出された属性分類値を格納する処理を行う。詳細は図4及び図5にて後述する
出力手段3は、検索条件として指定されたキーワードから、属性分類値への置換を行い検索条件として利用し、検索条件に属性分類値のスコアを時系列にプロットして画面表示する。とある時点を選択することで、その時点での文書一覧を表示する。詳細は図6にて後述する。
図2は、図1における入力手段1、文書変遷抽出手段2、出力手段3の処理の流れを表すフローチャートである。以下、図2を用いて処理の流れを説明する。
はじめに、入力手段1にて登録対象文書を文書管理システムに登録する(S100)。
続いて、文書変遷抽出手段2にて、文書登録(S100)で登録した文書より要約を抽出し、抽出した要約からキーワードを抽出する(S200)。次に抽出したキーワードをシステムが持つ辞書を用いて属性分類値へ変換し(S300)、属性値分類(S300)で変換した属性分類値を、登録対象文書ごとに属性分類値のスコアを作成し、改訂の都度時系列に記録する(S400)。次に、文書管理システムを用いた検索実行を行う。検索時に入力した検索条件値を検索軸として属性分類値に変換する。ここで属性分類値への変換は属性値分類(S300)と同様の手法にて変換する(S500)。さらに属性分類値を用いて検索を行い、結果出力(S600)を行い作業が完了する。
図3は、登録対象文書からキーワードの抽出、属性分類値へ変換する流れを示す概念図である。
登録対象文書の文書本文DB6から要約8を抽出し、要約8からキーワード9を抽出する。
抽出したキーワード9や、登録対象文書の登録時に入力した属性値(属性情報)7について、属性管理DB4に保管する。
図4は、抽出キーワード11を属性分類値に変換する例示である。抽出キーワードを、あらかじめシステムが持つ属性分類辞書10を用いて属性分類値12に置き換える。これにより、類似した抽出キーワードを同一のものとして取り扱うことを可能とする。
図5は、属性分類値の変遷を記録するためのテーブル構造の概念図である。図5は、文書変遷管理DB5に格納されている文書変遷情報の例であり、文書ID、属性分類値、時系列、スコアが関連付けられて格納されている。時系列は図3の属性値(属性情報)7の「作成/更新日」に基づいており、図5には、2009/01/01と2009/01/02と2009/01/03に作成/更新された三つの版についての例が示されている。また、スコアは既存概念検索技術の概念エンジンが算出した類似度を数値化したものであり、算出の方法は概念検索エンジンに依存する。なお、図5はスコアを格納した例であるが、スコアの代わりに登場回数を格納してもよく、また、スコア及び登場回数を格納してもよい。
登場回数及びスコアは、既存概念検索技術を用いて要約に対する属性分類毎に得る。
図6は、文書変遷検索(S500)及び結果出力(S600)の画面遷移を示した概念図である。
検索条件入力画面14にて入力した検索条件を、属性分類辞書10を用いて属性分類値に変換を行い、図5に示す属性値分類のテーブル構造を対象に検索を実行する。検索結果は、文書変遷トレンド表示画面15において画面表示を行う。トレンドグラフ16には、スコア及び/又は登場回数をy軸、x軸を更新時刻としてプロットすることで文書の変遷経緯のトレンド推移(差分変遷)が表示される。
また、例えば、図6の点線で示す時点を選択することで、その時点での文書一覧を表示することができる。
本実施の形態により、文書や版が持つ時系列情報とあわせて表示し、文書や版の変遷、キーワードのトレンドの可視化をすることができる。
以上、本実施の形態を詳細に説明したが、本実施の形態の文書変遷抽出装置は、登録対象の文書及びその属性情報を登録する入力手段1と、入力手段1によって登録された複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報の抽出を行う文書変遷抽出手段2と、文書の変遷経緯のトレンド推移をグラフ表示する出力手段3と、を備えていればよい。
また、文書変遷抽出手段2は、入力手段1によって登録された前記複数の文書及び版のそれぞれについて、要約を抽出し、抽出した要約を利用してキーワードの抽出を行い、抽出したキーワードを属性分類辞書を用いて属性分類値に変換し、該属性分類値と、時系列情報と、スコア及び/又は登場回数を関連付けて文書変遷管理DB5に蓄積し、出力手段3は、検索条件として指定されたキーワードを前記属性分類辞書を用いて属性分類値に変換し、該属性分類値を用いて文書変遷管理DB5を検索し、スコア及び/又は登場回数のトレンド推移をグラフ表示するものであってもよい。
以上説明した本実施の形態の文書変遷抽出装置はコンピュータとプログラムで構成することができる。
以上、本発明者によってなされた発明を、前記実施の形態に基づき具体的に説明したが、本発明は、前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能であることは勿論である。
1 入力手段
2 文書変遷抽出手段
3 出力手段
4 属性管理DB
5 文書変遷管理DB
6 文書本文DB
7 属性値(属性情報)の例
8 要約
9 キーワードの例
10 属性分類辞書
11 抽出キーワード
12 属性分類値
13 属性分類テーブル構造
14 検索条件入力画面
15 文書変遷トレンド表示画面
16 トレンドグラフ

Claims (3)

  1. 文書管理システムに登録した文書の変遷経緯のトレンド推移を抽出し、表示する文書変遷抽出装置において、
    登録対象の文書及びその属性情報を登録する入力手段と、
    前記入力手段によって登録された複数文書及び版が持つ属性情報及び要約を利用して文書変遷情報の抽出を行う文書変遷抽出手段と、
    文書の変遷経緯のトレンド推移をグラフ表示する出力手段と、
    を備えることを特徴とする文書変遷抽出装置。
  2. 請求項1に記載の文書変遷抽出装置において、
    前記文書変遷抽出手段は、前記入力手段によって登録された前記複数の文書及び版のそれぞれについて、要約を抽出し、抽出した要約を利用してキーワードの抽出を行い、抽出したキーワードを属性分類辞書を用いて属性分類値に変換し、該属性分類値と、時系列情報と、スコア及び/又は登場回数を関連付けてデータベースに蓄積し、
    前記出力手段は、検索条件として指定されたキーワードを前記属性分類辞書を用いて属性分類値に変換し、該属性分類値を用いて前記データベースを検索し、スコア及び/又は登場回数のトレンド推移をグラフ表示する
    ことを特徴とする文書変遷抽出装置。
  3. 請求項1または2に記載の文書変遷抽出装置の機能をコンピュータに実現させるための文書変遷抽出プログラム。
JP2009159920A 2009-07-06 2009-07-06 文書変遷抽出装置及びそのプログラム Pending JP2011014086A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009159920A JP2011014086A (ja) 2009-07-06 2009-07-06 文書変遷抽出装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009159920A JP2011014086A (ja) 2009-07-06 2009-07-06 文書変遷抽出装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2011014086A true JP2011014086A (ja) 2011-01-20

Family

ID=43592874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009159920A Pending JP2011014086A (ja) 2009-07-06 2009-07-06 文書変遷抽出装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2011014086A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101127883B1 (ko) * 2011-09-26 2012-03-21 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템
KR101148927B1 (ko) 2011-09-26 2012-05-22 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 연관기술정보 제공 방법 및 시스템
WO2015059940A1 (ja) * 2013-10-25 2015-04-30 株式会社Ubic 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101127883B1 (ko) * 2011-09-26 2012-03-21 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 기술 추이 제공 방법 및 시스템
KR101148927B1 (ko) 2011-09-26 2012-05-22 한국과학기술정보연구원 기술 생명 주기 그래프를 이용한 연관기술정보 제공 방법 및 시스템
EP2573722A1 (en) * 2011-09-26 2013-03-27 Korea Institute Of Science and Technology Information Method and system for providing technology trend using technology life cycle graph
WO2015059940A1 (ja) * 2013-10-25 2015-04-30 株式会社Ubic 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
US9595071B2 (en) 2013-10-25 2017-03-14 Ubic, Inc. Document identification and inspection system, document identification and inspection method, and document identification and inspection program

Similar Documents

Publication Publication Date Title
JP6101563B2 (ja) 情報構造化システム
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
EP3671526B1 (en) Dependency graph based natural language processing
US8606601B2 (en) Apparatus and method of automated information extraction and implementation through large scale networks
KR101845897B1 (ko) 의료 학술연구 지원 시스템 및 방법
WO2013144220A1 (en) A method and apparatus for computer assisted innovation
CN110188165A (zh) 合同模板获取方法、装置、存储介质和计算机设备
US11640499B2 (en) Systems, methods and computer program products for mining text documents to identify seminal issues and cases
JP2011014086A (ja) 文書変遷抽出装置及びそのプログラム
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN116304347A (zh) 一种基于群智知识的Git命令推荐方法
JP2001325276A (ja) 情報処理システム、情報処理方法、コンピュータプログラム、記憶媒体及びプログラム伝送装置
JP2012138027A (ja) 情報検索システム、検索キーワード提示方法、およびプログラム
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
CN110737749B (zh) 创业计划评价方法、装置、计算机设备及存储介质
JP2012108710A (ja) プログラムコンポーネント検索方法、プログラムコンポーネント検索システムおよびコンポーネント検索プログラム
JPH1166197A (ja) 電子カルテシステムの情報提示方式ならびにその記録媒体
JP6081609B2 (ja) データ分析システム及びその方法
JP6983105B2 (ja) データ蓄積システム及びデータ検索方法
Puga et al. What editors, reviewers, researchers and librarians need to know about the PRESS, MECIR, PRISMA and AMSTAR instruments with regard to improving the methodological quality of searches for information for articles
JP2009199576A (ja) 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体
KR20160040083A (ko) 용어 추출 및 관리 방법과 이를 실행하는 장치
KR20180137394A (ko) 문서로부터 용어를 추출하고 관리하는 장치를 이용한 용어 추출 및 관리 방법
EP3944127A1 (en) Dependency graph based natural language processing