JP5621438B2 - 文書分割装置、文書処理システム、プログラム - Google Patents
文書分割装置、文書処理システム、プログラム Download PDFInfo
- Publication number
- JP5621438B2 JP5621438B2 JP2010204859A JP2010204859A JP5621438B2 JP 5621438 B2 JP5621438 B2 JP 5621438B2 JP 2010204859 A JP2010204859 A JP 2010204859A JP 2010204859 A JP2010204859 A JP 2010204859A JP 5621438 B2 JP5621438 B2 JP 5621438B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- phrase
- text data
- information
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G06F17/21—
-
- G06F17/27—
-
- G06F17/30—
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
図1は、本実施形態の文書処理システム500の概略を説明する図の一例である。
(1)文書管理システムのサーバ100は、まず、テキストデータの段落分けやパラグラフ等を利用して文書からセクションを抽出する。
(2)サーバ100は、形態素解析などを利用して、各セクションにおいて単語あるいは複数の単語から成るフレーズを抽出する。
(3)次に、サーバ100は、各フレーズの重要度を取得する。この重要度はフレーズの出現頻度などから公知の手法で求められる。
(4)そして、サーバ100は、フレーズのレイアウト情報から、フレーズ毎に重みを取得する。レイアウト情報とはフレーズの書式情報(文字サイズ、色など)や属性情報(ページのタイトルになっている)であり、強調性の高いレイアウト情報のフレーズには大きな重みが与えられる。したがって、重要なフレーズは重みが大きくなる。このような重み付けが本実施形態の文書処理システム500の特徴の1つである。
(5)サーバ100は、文書から重複しないようにフレーズを抽出し、各フレーズをM個の基底に割り当てた特徴ベクトルを定義する。
(6)そして、サーバ100はセクション毎に、セクションに含まれるフレーズの「重要度×重み」を基底の係数とする特徴ベクトルを生成する。そのセクションにないフレーズの係数はゼロである。
図2は、文書処理システム500の実施形態の一例を示す図である。文書処理システム500は、文書に含まれるセクションの特徴を抽出してセクション同士を比較できればよいので、文書の種類はどのようなものでもよい。図2では一例として、会議の議事データを文書としている。
図6は、サーバ100が文書のまとまりを作成する全体的な手順を示すフローチャート図の一例である。ここでは、文書を内容のまとまり毎に分割する処理フローについて説明する。
図7は、クライアントマシン200に表示される、文書の転送画面の一例を示す。ユーザは参照ボタン201を押下して、記憶装置13に記憶している文書のファイル名を指定する。クライアントマシン200は、指定された文書のファイル名(正確にはパス名)をファイル名欄202に表示する。ユーザが登録ボタン203を押下すると、クライアントマシン200のネットワークインタフェース15はサーバ100に文書を送信する。なお、ユーザはサーバ100にログインしているものとする。この文書には1以上の会議の議事データが含まれている(セクション毎に細分化するのであれば複数の会議の議事データが含まれている)。
・書式情報(文字色、文字の大きさ、修飾、下線、など)
・位置{文字の存在する絶対的な位置(例えば1〜50行目など)や相対的な位置(図の下、図の中、欄外、注釈欄、吹き出し内など)}
・属性情報(タイトル、サブタイトル、注釈、但し書き、補足、式など)、
書式情報は、例えば、文書がHTMLで記述されていればタグにより検出される。
文字色は<FONT color="カラー名">〜</FONT>
文字の大きさは<font size="サイズ">〜</font></
修飾のうち太字は<b>〜</b>、強調は<strong>〜</strong>、下線は<u>〜</u>
が一般的なタグである。
修飾のうち「\b」は太字にすることを示し、「\i」は文字を斜体にすることを示し、「\cfn」は文字の色を指定すること示す(nがカラーテーブルのカラーを指示する番号)。
なお、「\par」は段落の区切りを示す。
・改行
・文字の大きさが大きくなった位置
・改ページ
等を区切り情報として検出し、区切り情報を検出する毎に新しいセクションとしてセクションを抽出していく。
図8のフローチャート図を用いてキーワードの抽出について詳細に説明する。
本実施形態では、一例としてTF-IDF値の算出によりキーワード抽出を行うものとする。TF-IDFの「TF」は「Term Frequency」の略であり、その文書の中で特定の単語が出現した回数を表し、「IDF」は「Inverse Document Frequency」の略であり、複数の文書全体の中でその単語がどのくらい使用されているかを表す。「TF×IDF」が、その文書におけるその単語のTF-IDF値となる。
以下、TF-IDF(i,j)をフレーズの重要度と呼ぶ。
図9は、各セクションの特徴ベクトルの作成手順を示すフローチャート図の一例である。
[S1-5-2]特徴ベクトル作成部36は、メタデータについて重み記憶テーブルを参照し、そのメタデータに対応する重みの値を取得する。
「レイアウト情報の種類」=「レイアウト情報の内容」
の形で格納される。
なお、メタデータ抽出部35の抽出したフレーズのメタデータが「文字色=赤」かつ「属性=ページタイトル」のように2つ以上ある場合は、それぞれに対応する重みを掛け合わせた値を重みとする。図10の例では、それぞれ2.0と3.0なので、重みは6.0になる。
特徴ベクトルの基底(i)の係数 = (フレーズk(i)に対応する重要度) × (フレーズk(i)に対応する重み)
と定義する。
特徴ベクトルの要素(i) = (フレーズk(i)に対応する重要度) × (フレーズk(i)に対応する重み)×…× (フレーズk(i)に対応する重み)
したがって、セクション毎に特徴ベクトルは異なることがほとんどである。
図11は、まとまり抽出部39がまとまりを抽出する手順を示すフローチャート図の一例である。まとまり抽出部39は、各セクションの特徴ベクトルに基づき、類似する複数セクションを一つのまとまりとする。
図12(a)〜(c)はセクション間の距離の例を模式的に示す図の一例である。図12(a)は距離が近い例を示す。セクション1にはフレーズAとフレーズBが記述されている。フレーズの上の括弧内の数値は(重要度,重み)を表す。フレーズAの重要度は"a",重みは"2"、フレーズBの重要度は"b",重みは"3"、である。
セクション1:(2aA, 3bB, 0, 0)
セクション2:(6aA, 1bB,2cC,1dD)
セクション分けされるかどうかは他のセクション境界の距離と比較され相対的に決まるが、セクション1とセクション2の距離は比較的近いと考えられる。
セクション1:(2aA, 3bB, 0, 0)
セクション2:( 0, 0,2cC, 0)
ベクトルの4つの要素に共通する要素がないので、セクション1とセクション2の距離は比較的遠いと考えられる。
セクション1:(2aA, 3bB, 0, 0)
セクション2:(0.5aA, 0.5bB,2cC,1dD)
セクション分けされるかどうかは他のセクション境界の距離と比較され相対的に決まるが、図12(c)と図12(a)の特徴ベクトルを比較すると、図12(c)の方が2つの特徴ベクトルの距離が遠い。したがって、文書のレイアウト情報からメタデータを抽出し、フレーズに重み付けすることで、セクション間の距離をより適切に算出することができることがわかる。
以上により、サーバ100は文書を所定の数のまとまりに分割することができた。結果表示部40は、まとまりとまとまりの境界を明示してクライアントマシン200に送信する。
図13は、まとまりとまとまりの境界の表示例を示す。結果表示部40は、まとまり抽出部39の抽出結果に従い、セクションのまとまりが視覚的にわかるような形にレイアウトして表示する。図13の例では、波線でセクションのまとまりが示されている。例えばHTML文書では、
<div style="border:dotted ; black; border-width:10px"> セクション〜セクション</div>
のようにセクションとセクションをタグで囲むことで、まとまりを破線で囲む表示が可能なので、結果表示部40はこのような記述を文書に追加する。また、このような機能は、文書を作成するワードプロセッサアプリによっても提供される。したがって、破線の描画情報は文書のファイルに書式情報として含まれている。
図14は、まとまりとまとまりの境界の明示の一例を示す図である。図14(a)では、まとまり間に特殊記号(例えば、*)の行が挿入されている。この他、特殊記号(例えば、+、−、#、=等)を挿入することができ、破線で囲むことなく境界を明示することができる。また、特殊記号を含まなくても、まとまりとまとまりの境界を所定数空けることでも境界の明示は可能である。
(i)まとまりキーワード抽出部41は、まとまり抽出部39の抽出した各まとまりにおいて、そのまとまりに含まれる全てのセクションの特徴ベクトルを足しあわせる。これは、ベクトルの単純な加算でも、基底の係数をスカラーとして基底毎に加算してもよい。
(ii)まとまりキーワード抽出部41は、(i)で得られた特徴ベクトルを用いて、係数が大きい基底から順に所定数個の基底を特定する。この基底に対応するフレーズがキーワードである。
32 処理部
33 重み記憶部
34 文書受信部
35 メタデータ抽出部
36 特徴ベクトル作成部
37 セクション抽出部
38 キーワード抽出部
39 まとまり抽出部
40 結果表示部
41 まとまりキーワード抽出部
100 サーバ
200 クライアントマシン
300 ネットワーク
500 文書処理システム
Claims (12)
- テキストデータが記述された文書ファイルを取得する文書ファイル取得手段と、
前記テキストデータの区切り情報を検出して該テキストデータから複数のセクションを抽出するセクション抽出手段と、
前記テキストデータからフレーズ及び前記フレーズのレイアウト情報を抽出し、各フレーズの前記テキストデータにおける重要度を算出するフレーズ重要度算出手段と、
テキストデータを視覚的に調整するレイアウト情報に対応づけてレイアウト情報の重み情報が登録された重み情報記憶手段と、
前記テキストデータから重複しないように抽出した一連の前記フレーズに基底を割り当て、前記セクション内の前記フレーズの重要度、及び、前記重み情報記憶手段から読み出したレイアウト情報に対応づけられた前記重み情報、から生成された値を基底の係数とする特徴ベクトルを、前記セクションごとに作成する特徴ベクトル作成手段と、
前記セクションどうしの前記特徴ベクトルの類似度に応じて、複数の前記セクションを1つのまとまりとして抽出するまとまり抽出手段と、を有し、
前記重み情報記憶手段には、前記フレーズの1ページにおける記述位置をレイアウト情報として、前記記述位置に前記重み情報が対応づけられており、
前記記述位置が欄外の場合、前記記述位置が欄内の場合よりも小さな前記重み情報が対応づけられている、ことを特徴とする文書分割装置。 - 前記まとまり抽出手段が抽出した前記まとまりの区切りを可視化する可視情報を前記文書ファイルに追加する結果可視化手段、を有することを特徴とする請求項1記載の文書分割装置。
- 前記まとまり抽出手段が抽出した前記まとまりのキーワードを抽出するまとまりキーワード抽出手段を、さらに有することを特徴とする請求項1又は2記載の文書分割装置。
- 前記特徴ベクトル作成手段は、着目している前記セクションに基底に割り当てられた前記フレーズが存在しない場合、存在しない前記フレーズの係数をゼロにする、
ことを特徴とする請求項1〜3いずれか1項記載の文書分割装置。 - 前記重み情報記憶手段には、視覚的に強調して表示されるレイアウト情報ほど大きな前記重み情報が対応づけて記憶されている、
ことを特徴とする請求項1〜4いずれか1項記載の文書分割装置。 - 前記まとまり抽出手段は、前記テキストデータが含む前記セクションの数が大きいほど大きくなる値により前記セクションの数を除することでまとまりの数を決定し、
隣接したセクションどうしの前記特徴ベクトルの類似度の低い順に決定した、前記まとまりの数より1つ小さい数のセクション間の境界によりまとまりを抽出する、
ことを特徴とする請求項1記載の文書分割装置。 - 文字の大きさ、装飾内容又は色をレイアウト情報として、前記重み情報記憶手段には文字の大きさ、装飾内容又は色に対応づけて前記重み情報が対応づけられている、
ことを特徴とする請求項5又は6記載の文書分割装置。 - 前記結果可視化手段は、前記まとまりを矩形枠で囲む前記可視情報を前記文書ファイルに追加する、ことを特徴とする請求項2記載の文書分割装置。
- 前記まとまりキーワード抽出手段は、前記まとまりに含まれる前記セクションの前記特徴ベクトルの和を求め、係数の大きさが大きい順に基底に割り当てられた所定数の前記フレーズを前記まとまりのキーワードとして抽出する、
ことを特徴とする請求項3記載の文書分割装置。 - 前記文書ファイルには複数の会議の各議事データが含まれており、
前記セクション抽出手段は、複数の議事データをセクションとして抽出し、
前記まとまり抽出手段は、議事データの前記特徴ベクトルの類似度に応じて、複数の議事データを1つのまとまりとして抽出する、
ことを特徴とする請求項1〜9いずれか1項記載の文書分割装置。 - 情報処理装置とサーバがネットワークを介して接続された文書処理システムであって、
前記情報処理装置は、テキストデータが記述された文書ファイルを前記サーバに送信する送信手段、を有し
前記サーバは、
テキストデータが記述された文書ファイルを取得する文書ファイル取得手段と、
前記テキストデータの区切り情報を検出して該テキストデータから複数のセクションを抽出するセクション抽出手段と、
前記テキストデータからフレーズ及び前記フレーズのレイアウト情報を抽出し、各フレーズの前記テキストデータにおける重要度を算出するフレーズ重要度算出手段と、
テキストデータを視覚的に調整するレイアウト情報に対応づけてレイアウト情報の重み情報が登録された重み情報記憶手段と、
前記テキストデータから重複しないように抽出した一連の前記フレーズに基底を割り当て、前記セクション内の前記フレーズの重要度、及び、前記重み情報記憶手段から読み出したレイアウト情報に対応づけられた前記重み情報、から生成された値を基底の係数とする特徴ベクトルを、前記セクションごとに作成する特徴ベクトル作成手段と、
前記セクションどうしの前記特徴ベクトルの類似度に応じて、複数の前記セクションを1つのまとまりとして抽出するまとまり抽出手段と、を有し、
前記重み情報記憶手段には、前記フレーズの1ページにおける記述位置をレイアウト情報として、前記記述位置に前記重み情報が対応づけられており、
前記記述位置が欄外の場合、前記記述位置が欄内の場合よりも小さな前記重み情報が対応づけられている、ことを特徴とする文書処理システム。 - コンピュータに、
テキストデータが記述された文書ファイルを取得する文書ファイル取得ステップと、
前記テキストデータの区切り情報を検出して該テキストデータから複数のセクションを抽出するセクション抽出ステップと、
前記テキストデータからフレーズ及び前記フレーズのレイアウト情報を抽出し、各フレーズの前記テキストデータにおける重要度を算出するフレーズ重要度算出ステップと、
前記フレーズのレイアウト情報を前記文書ファイルから抽出し、テキストデータを視覚的に調整するレイアウト情報に対応づけてレイアウト情報の重み情報が登録された重み情報記憶手段から、レイアウト情報に対応づけられた重み情報を読み出す重み決定ステップと、
前記テキストデータから重複しないように抽出した一連の前記フレーズに基底を割り当て、前記セクション内の前記フレーズの重要度、及び、前記重み情報記憶手段から読み出したレイアウト情報に対応づけられた前記重み情報、から生成された値を基底の係数とする特徴ベクトルを、前記セクションごとに作成する特徴ベクトル作成手段ステップと、
前記セクションどうしの前記特徴ベクトルの類似度に応じて、複数の前記セクションを1つのまとまりとして抽出するまとまり抽出ステップと、を実行させるプログラムであって、
前記重み決定ステップで前記重み情報が読み出される前記重み情報記憶手段には、前記フレーズの1ページにおける記述位置をレイアウト情報として、前記記述位置に前記重み情報が対応づけられており、前記記述位置が欄外の場合、前記記述位置が欄内の場合よりも小さな前記重み情報が対応づけられている、ことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010204859A JP5621438B2 (ja) | 2010-09-13 | 2010-09-13 | 文書分割装置、文書処理システム、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010204859A JP5621438B2 (ja) | 2010-09-13 | 2010-09-13 | 文書分割装置、文書処理システム、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012059227A JP2012059227A (ja) | 2012-03-22 |
JP5621438B2 true JP5621438B2 (ja) | 2014-11-12 |
Family
ID=46056201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010204859A Expired - Fee Related JP5621438B2 (ja) | 2010-09-13 | 2010-09-13 | 文書分割装置、文書処理システム、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5621438B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6926175B2 (ja) * | 2016-03-16 | 2021-08-25 | 株式会社東芝 | 表示支援装置、方法およびプログラム |
JP2021064143A (ja) * | 2019-10-11 | 2021-04-22 | 株式会社Legalscape | 文作成装置、文作成方法および文作成プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3606159B2 (ja) * | 2000-04-04 | 2005-01-05 | 日本電気株式会社 | 文章処理装置 |
JP2007241902A (ja) * | 2006-03-10 | 2007-09-20 | Univ Of Tsukuba | テキストデータの分割システム及びテキストデータの分割及び階層化方法 |
JP4403432B2 (ja) * | 2007-07-19 | 2010-01-27 | ソニー株式会社 | 録画再生装置及び録画再生方法 |
-
2010
- 2010-09-13 JP JP2010204859A patent/JP5621438B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012059227A (ja) | 2012-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10796076B2 (en) | Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine | |
FI124000B (fi) | Menetelmä ja järjestely tiedonhakutulosten käsittelemiseksi | |
JP5383234B2 (ja) | 情報処理装置及び印刷制御方法 | |
US9514216B2 (en) | Automatic classification of segmented portions of web pages | |
Baroni et al. | WebBootCaT. instant domain-specific corpora to support human translators | |
US9081765B2 (en) | Displaying examples from texts in dictionaries | |
US7234942B2 (en) | Summarisation representation apparatus | |
US9703874B2 (en) | System and method for presenting search extract title | |
Baroni et al. | WebBootCaT: a web tool for instant corpora | |
JP5820320B2 (ja) | 情報処理端末及び方法、並びに、情報管理装置及び方法 | |
JP2008234658A (ja) | テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション | |
US20020083045A1 (en) | Information retrieval processing apparatus and method, and recording medium recording information retrieval processing program | |
JP2007122513A (ja) | コンテンツ検索方法、及び、コンテンツ検索サーバ | |
US20130151936A1 (en) | Page preview using contextual template metadata and labeling | |
JP2007072646A (ja) | 検索装置、検索方法およびプログラム | |
JP4934355B2 (ja) | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 | |
JP6840597B2 (ja) | 検索結果要約装置、プログラム及び方法 | |
JP5621438B2 (ja) | 文書分割装置、文書処理システム、プログラム | |
JP2011181109A (ja) | 情報検索支援プログラム、情報検索支援機能を有するコンピュータ、サーバー・コンピュータ、プログラム格納媒体 | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
JP2009237755A (ja) | 関連語検索方法及び装置、関連語検索プログラム、コンテンツ検索方法及び装置、並びにコンテンツ検索プログラム | |
Paulovich et al. | PEx-WEB: Content-based visualization of Web search results | |
JP4463925B2 (ja) | インデックス生成装置及びその方法、記憶媒体 | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
JP2008117375A (ja) | ウェブ文書の編集または表示装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130718 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140128 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140908 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5621438 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |