JP2009059110A - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JP2009059110A
JP2009059110A JP2007224903A JP2007224903A JP2009059110A JP 2009059110 A JP2009059110 A JP 2009059110A JP 2007224903 A JP2007224903 A JP 2007224903A JP 2007224903 A JP2007224903 A JP 2007224903A JP 2009059110 A JP2009059110 A JP 2009059110A
Authority
JP
Japan
Prior art keywords
block
item
setting
analysis
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007224903A
Other languages
English (en)
Inventor
Tomoo Yoshida
智生 吉田
Hiroto Harada
裕騰 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007224903A priority Critical patent/JP2009059110A/ja
Publication of JP2009059110A publication Critical patent/JP2009059110A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】テキストをXMLに変換する変換ルールの設定を柔軟に行うことができ、縦書き・横書き混在の複雑なテキストにも対応することができるようにすること。
【解決手段】解析設定処理部51は、テキストT1を解析してXMLに変換する変換ルールを設定するための設定画面として、少なくともテキストT1内の解析対象となる範囲の単位であるブロックの中の文字列を縦書きとして解析するのか横書きとして解析するのかを指定するための書式指定項目と、当該ブロックを行方向に分割して解析するのか列方向に分割して解析するのかを指定するための分割モード指定項目とが表示される第1の表示領域と、当該ブロックを分割して得られる個々のブロック毎に文字列の切り出し範囲を指定するための切り出し範囲指定項目が表示される複数の第2の表示領域とを含む設定画面を生成し、設定画面を通じて指定される個々の条件に基づき、前記変換ルールとして当該個々の条件を示す情報にそれぞれタグが付された文字列を含む解析設定情報を作成する。
【選択図】 図2

Description

本発明は、テキストを解析してXML(extensible markup language)に変換する変換ルールの設定を行うことが可能な情報処理装置およびプログラムに関する。
近年、通信社から新聞社などへ電文として配信される記事の形式をテキストからXML(NewsMLなどのXMLベースの言語を含む)へと順次推移する作業が進められている。各新聞社側においても、記事をXML形式で管理する環境づくりが進められている。その一方で、新聞社が自社で発信するような記事は、依然としてテキスト形式で作成されることが少なくない。今後は、このようなテキストなどについても、XMLへの変換を行ってXMLファイルとして管理し、更にはそのXMLファイルを他の用途にも二次的に利用できるようにすることが望まれる。
テキストの解析やXMLへの変換を行う技術には種々なものがある。例えば、特許文献1には、テキストを文単位に分割する等の処理を通じて読み上げに適した部分を切り出す手法が開示されている。また、特許文献2には、自然文テキストに対して形態素解析等により文節単位での切り出しを行う等の処理を通じてXML文書を作成する手法が開示されている。
特開2002−334070号公報 特開2003−288332号公報
しかしながら、上記特許文献1および特許文献2を含む従来の手法では、テキストから抽出すべき対象を変更し又は設定したい場合や、その対象に対する変換結果の形態を変更し又は設定したい場合には、柔軟に対応することができない。
更には、従来の手法では、横書きの単純なテキストを対象としているため、縦書き・横書き混在の複雑なテキストに対しては全く対処することができない。
特に、操作者にとって視覚的に分かりやすい設定画面上で上記した変更の作業や設定の作業を行わせる技術は今後非常に有望視される技術であり、これらの技術は未だ提案されていない。
本発明は上記実情に鑑みてなされたものであり、テキストをXMLに変換する変換ルールの設定を柔軟に行うことができ、縦書き・横書き混在の複雑なテキストにも対応することができる情報処理装置およびプログラムを提供することを目的とする。
本発明に係る情報処理装置は、テキストを解析してXML(extensible markup language)に変換する変換ルールを設定するための設定画面として、少なくとも前記テキスト内の解析対象となる範囲の単位であるブロックの中の文字列を縦書きとして解析するのか横書きとして解析するのかを指定するための書式指定項目と、当該ブロックを行方向に分割して解析するのか列方向に分割して解析するのかを指定するための分割モード指定項目とが表示される第1の表示領域と、当該ブロックを分割して得られる個々のブロック毎に文字列の切り出し範囲を指定するための切り出し範囲指定項目が表示される複数の第2の表示領域とを含む設定画面を生成する手段と、前記設定画面を通じて指定される個々の条件に基づき、前記変換ルールとして、当該個々の条件を示す情報にそれぞれタグが付された文字列を含む解析設定情報を作成する手段とを具備することを特徴とする。
本発明に係るプログラムは、テキストを解析してXML(extensible markup language)に変換する変換ルールを設定するための設定画面として、少なくとも前記テキスト内の解析対象となる範囲の単位であるブロックの中の文字列を縦書きとして解析するのか横書きとして解析するのかを指定するための書式指定項目と、当該ブロックを行方向に分割して解析するのか列方向に分割して解析するのかを指定するための分割モード指定項目とが表示される第1の表示領域と、当該ブロックを分割して得られる個々のブロック毎に文字列の切り出し範囲を指定するための切り出し範囲指定項目が表示される複数の第2の表示領域とを含む設定画面を生成する機能と、前記設定画面を通じて指定される個々の条件に基づき、前記変換ルールとして、当該個々の条件を示す情報にそれぞれタグが付された文字列を含む解析設定情報を作成する機能とをコンピュータに実現させることを特徴とする。
本発明によれば、テキストをXMLに変換する変換ルールの設定を柔軟に行うことができ、縦書き・横書き混在の複雑なテキストにも対応することができる。
以下、図面を参照して、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る情報処理システムの構成の一例を示す図である。
情報処理システムは、例えば新聞社に設けられるものであり、サーバシステム100、通信部200、および複数の端末101,102,103…により構成される。通信部200は、通信社から電文として配信されてくる記事を受信し、受信した記事をサーバシステム100へ渡す。サーバシステム100は、記事の素材を管理する素材管理サーバや、記事の素材を用いて記事の加工を行う記事加工サーバなど、各種のサーバを備えている。各サーバは、端末101,102,103…からの要求に応じ、対応するデータベース(DB)を使用することにより要求された処理を実行する。端末101,102,103…は、それぞれサーバシステム100に各種の処理の実行を要求することができる。
次に、図2および図3を参照して、図1中のサーバシステム100に設けられる情報処理装置(コンピュータ)の機能について説明する。図2は、サーバシステム100中の情報処理装置300に備えられる解析設定処理部の機能を説明するためのブロック図である。一方、図3は、サーバシステム100中の情報処理装置300に備えられる解析実行処理部の機能を説明するためのブロック図である。
情報処理装置300は、例えば前述のサーバシステム100に含まれるあるサーバ(例えば記事加工サーバ)に相当するものであり、テキスト解析ライブラリ50および記憶部D1,D2を有する。
テキスト解析ライブラリ50は、プロセッサ(CPU(central processing unit)など)により実行されるコンピュータプログラムとして実現されるものであり、解析設定処理部51および解析実行処理部52を有する。
記憶部D1は、解析設定処理部51に入力される解析対象テキスト(テスト用のテキスト)T1や、解析実行処理部52に入力される解析対象テキスト(運用上のテキスト)T2を記憶する記憶装置である。
記憶部D2は、解析設定処理部51から出力され且つ解析実行処理部52に入力されるXML形式の解析設定情報X1や、解析実行処理部52から出力されるXML形式の解析結果X2を記憶する記憶装置である。
上述の解析対象テキストT1、解析対象テキストT2、解析設定情報X1、解析結果X2は、ファイル形式を想定しているが、その他の形式で構成されていてもよい。
解析設定処理部51は、図4に示すように設定画面生成部51Aおよび解析設定情報作成部51Bを有する。
設定画面生成部51Aは、ある端末からの要求に応じ、解析対象テキストT1を解析してそれをXMLに変換する変換ルール(解析定義)を設定するための設定画面を生成する機能である。この設定画面は、少なくとも当該テキスト内の解析対象となる範囲の単位であるブロックの中のテキスト(即ち、文字列)を縦書きとして解析するのか横書きとして解析するのかを指定するための書式指定項目と、当該ブロックを行方向に分割して解析するのか列方向に分割して解析するのかを指定するための分割モード指定項目とが表示される第1の表示領域と、当該ブロックを分割して得られる個々のブロック毎に文字列の切り出し範囲を指定するための切り出し範囲指定項目が表示される複数の第2の表示領域とを含む。生成された設定画面の情報は、要求元の端末へ送られ、当該端末の表示部に表示される。
解析設定情報作成部51Bは、設定画面生成部51Aにより生成された設定画面を通じて指定される個々の条件に基づき、上記変換ルールとして、当該個々の条件を示す情報にそれぞれタグが付された文字列を含む解析設定情報X1を作成し、これを記憶部D2に格納したり要求元の端末に送信したりする機能である。
解析実行処理部52は、記憶部D2に保存されている解析設定情報X1に従って、記憶部D1に記憶されている解析対象テキストT2からXML形式の解析結果X2を生成する機能であり、当該解析対象テキストT2に対する解析範囲の決定と文字等の抽出とを行うことにより、当該解析対象テキストT2をXMLに変換する変換処理を行い、変換処理後のXML形式の解析結果X2を記憶部D2に格納したり要求元の端末に送信したりすることができる。
図5は、図4中の設定画面生成部51Aにより生成される設定画面において操作者がブロック毎に入力することのできる主な設定項目を示す図である。
主な設定項目には、書式61、分割モード62、整形指定63、繰り返し指定64、切り出し指定65、および抽出66がある。
書式61は、上でも述べたように、テキスト内の解析対象となる範囲の単位であるブロックの中の文字列を縦書きとして解析するのか横書きとして解析するのかを指定するための項目である。ここで指定した内容は、切り出し指定65(後述)で指定される文字列に適用される。横書きを指定すれば、文字列の起点が左上、終点が右下となる。一方、縦書きを指定すれば、文字列の起点が右上、終点が左下となる。
分割モード62は、上でも述べたように、ブロックを行方向に分割して解析するのか列方向に分割して解析するのかを指定するための項目である。例えば、図6(a)のようにあるブロックを行方向に3行単位で分割して複数の子ブロックを作り、更に、ある子ブロックを図6(b)のように列方向に2列単位で分割して複数の孫ブロックを作り、更に、ある孫ブロックを図6(c)のように行方向に1行単位で分割して複数のひ孫ブロックを作るといった階層的な分割処理が可能である。ここで指定した内容は、切り出し指定65(後述)で指定される文字列に適用される。
整形指定63は、文字列をどのように整形するかを指定するための項目である。例えば、文字列の改行の条件となる文字を指定することにより、所望の整形を行うことができる。
繰り返し指定64は、文字列の切り出しをどのような条件で繰り返すかを指定するための項目である。例えば、分割モード62で指定された方向(行方向または列方向)に、切り出し指定65(後述)で指定される文字列の切り出し・抽出を繰り返すことを指定したり、あるいは、繰り返し指定64に付随するパラメータとして指定したある文字を区切りとする切り出し・抽出を繰り返すことを指定したりすることができる。例えば、図7のように、テキストを行方向に2行単位で分割して所望の文字列を切り出して抽出する処理を繰り返すことを指定することができる。
切り出し指定65は、当該ブロックを分割して得られる個々のブロック毎に文字列の切り出し範囲を指定するための項目である。切り出し範囲は、開始位置と終了位置とで定義される。
抽出66は、切り出し指定65において切り出し範囲が指定された文字列の抽出を行うか否かを指定するための項目である。なお、抽出の対象は、末端のブロックについて切り出し指定がなされた文字列である。
図8は、図3中の解析設定処理部51に入力される解析対象テキストT1および出力される解析設定情報X1の例を示す図である。
解析対象テキストT1は、縦書き・横書き混在の複雑なテキストである。このような複雑なテキストをXMLに変換する変換ルール(解析定義)の設定を実現するためには、テキスト全体を複数のブロックB1,B2,B3,B4,B5,B6に分割する。また、個々のブロックを、必要に応じて子ブロック(図示せず)に分割したり、更に孫ブロックやひ孫ブロック(図示せず)に分割したりする。このようにブロックを階層構造にし、末端のブロックにおいて抽出したい文字を特定できるようにする。このような分割や抽出に関する設定処理は、図5に示される設定項目を含む設定画面を通じて行うことができる。
解析設定情報X1は、<BLOCK>タグを解析設定の基本単位とするXMLである。<BLOCK>タグ70は、テキスト全体に相当する。<BLOCK>タグ70の下には、複数の<BLOCK>タグ71,72,…がある。また、<BLOCK>タグ71,72,…の下には、それぞれ、<BLOCK>タグ81,82,…がある。こうした個々の<BLOCK>タグの下には、各種の<TAG..>(実際のタグ名は、もっと解りやすい名称である)がある。これらの<TAG..>には、前述した書式61、分割モード62、整形指定63、繰り返し指定64などを通じて指定された内容がそれぞれ定義される。特に、末端の<BLOCK>タグ(例えば、<BLOCK>タグ81,82,…)の中の<TAG..>には、切り出し指定65や抽出66などを通じて指定された内容もそれぞれ定義される。
ここで、図8に示される解析対象テキストT1のブロックB1〜B6と、解析設定情報X1の中の<BLOCK>タグ71,72,81,82,…との対応関係について説明する。
例えば、解析対象テキストT1を、最初、行方向に3つの領域(即ち、ブロックB1の領域、ブロックB2とB3とを含む領域、ブロックB4とB5とB6とを含む領域)に分割するものとする。
このとき、解析設定情報X1の中の<BLOCK>タグ70の下には、「行方向」を示す「分割モード」タグ(例えば、<TAG1>タグもしくは<TAG2>タグ)が設けられる。上記3つの領域は、解析設定情報X1の中の<BLOCK>タグ71,72,…に対応する。
この後、ブロックB1は分割しないが、ブロックB2とB3とを含む領域を列方向に2つの領域(即ち、ブロックB2、ブロックB3)に分割し、ブロックB4とB5とB6とを含む領域を列方向に3つの領域(即ち、ブロックB4、ブロックB5、ブロックB6)に分割するものとする。なお、ブロックB1内の文字列は横書きであり、ブロックB2,B3の文字列は縦書きであり、ブロックB4,B5,B6の文字列は横書きである。
このとき、解析設定情報X1の中において、ブロックB1に対応する<BLOCK>タグ71の下には、「横書き」を示す「書式」タグ(例えば、<TAG11>タグ)が設けられる。なお、この例では、ブロックB1は分割しないため、図中の<BLOCK>タグ81は使用されない。
また、ブロックB2とB3とを含む領域に対応する<BLOCK>タグ72の下には、「縦書き」を示す「書式」タグ(例えば、<TAG21>タグ)と、「列方向」を示す「分割モード」タグ(例えば、<TAG22>タグ)とが設けられる。
また、ブロックB4とB5とB6とを含む領域についても、対応する<BLOCK>タグ(図示せず)の下には、「横書き」を示す「書式」タグと、「列方向」を示す「分割モード」タグとが設けられる。
次に、図9および図10を参照して、図4中の解析画面設定部51Aにより生成される設定画面の例を説明する。
なお、図5において主要な設定項目として説明した、書式61,分割モード62,整形指定63,繰り返し指定64,切り出し指定65,抽出66は、それぞれ、図9中の項目(8),(9),(10),(12),(18),(17)に相当するものである。
図9の設定画面の例では、領域31,32,33が表示された状態にある。
領域31には、次のような項目が表示される。
(1) 記事加工パターン名称
記事加工パターン(記事を構成する個々の素材を選択的に用いて当該記事をどのような体裁で掲載するべきかを定めたもの)の名称を表示する項目である。
(2) 説明
本解析設定の説明文である。
(3) テスト電文リスト選択
テスト表示に使用する電文を選択するための項目である。一般に、「電文」は「テキスト」または「XML」で構成されているが、当該テスト表示に使用する電文は「テキスト」である。
(4) 仮見出し
記事加工パターンに適用するためのテスト電文のリスト(保存原稿)の仮見出しを表示する項目である。
(5) ファイル名
記事加工パターンに適用するためのテスト電文のリスト(保存原稿)のファイル名を表示する項目である。
また、領域31には、次のようなボタンも表示される。
[1] 選択
テスト電文を選択するための選択画面を別ウインドウにて表示するためのボタンである。
[2] クリア
選択したテスト電文を一覧から削除するためのボタンである。
[3] 全クリア
全テスト電文を一覧から削除するためのボタンである。
[4] テスト電文表示/非表示
テスト電文の欄(領域31の内容)の表示/非表示を選択するためのボタンである。
また、領域32には、次のような項目が表示される。
(6) 項目名一覧
現在のテキスト解析設定の対象をツリー状に表示する項目である。アンダーバーのある項目(ブロックに相当)は、子項目(子ブロックに相当)を有する。
(7) 項目名
項目名一覧において現在選択されている項目(ブロックに相当)の名称を表示する項目である。
(8) 書式
対象のテキストを「縦書き」として解析するか、「横書き」として解析するかを選択するためのチェック項目である。
(9) 分割モード
対象のテキストを「行方向」に分割して解析するか、「列方向」に分割して解析するかを選択するためのチェック項目である。
(10) 整形指定
対象のテキストに施す整形の種類(文字区切など)を選択するための項目である。
(11) 整形指定用パラメータ
整形指定で選択した種類に応じた文字数や文字列などのパラメータを指定するための項目である。
(12) 繰り返し指定
現在選択されている項目(ブロックに相当)に対して繰り返し適用すべき条件を選択するための項目である。
(13) 繰り返し指定用パラメータ
繰り返し指定で選択した条件に応じたパラメータを指定するための項目である。
(14) 項目一覧
現在選択されている項目(ブロックに相当)に所属する子項目の一覧を表示する項目である。個々の子項目は、互いに異なる色で色付けされた部分を有する。例えばそれぞれ緑(G)、赤(R)、青(B)、黄(Y)などの色で色付けされる。
(15) 項目名
子項目の名称を入力するための項目である。
(16) タグ名
タグの名称を入力するための項目である。
(17) 抽出
子項目から値を抽出するか否かを選択するためのチェック項目である。
(18) 切出し指定(始/終)
切り出したい文字列の開始位置(始)と終了位置(終)を特定する方法を選択するための項目である。例えば「指定文字列」や「相対位置」がプルダウンにより選択できる。
(19) 番目
切出し指定(始/終)で選択した方法に応じた文字列の番目(何番目の文字列か)を指定するための項目である。
(20) 文字列
切出し指定(始/終)で選択した方法に応じた文字列を指定するための項目である。
(21) 字数
切出し指定(始/終)で選択した方法に応じた文字数を指定するための項目である。
(22) 説明(項目)
子項目の説明を入力するための項目である。
(23) 無効
当該子項目の設定が無効であるか有効であるかを示す項目である。
また、領域32には、次のようなボタンも表示される。
[5] 削除
子項目を削除するためのボタンである。
[6] 無効
子項目を無効とするか有効とするかを選択するためのボタンである。
[7] 追加
子項目を追加するためのボタンである。
また、領域33には、次のような項目が表示される。
(24) 結果表示方式
実行結果の表示方式が何であるかを示す項目である。表示方式には、テーブルとして表示する方式と、XMLとして表示する方式とがある。
(25) テストデータ
「[1] 選択」にて選択したテスト電文の内容(テストデータ)を表示するエリアである。前述の「(14) 項目一覧」に所属する個々の子項目に色付けされた色と同じ色によって、当該テストデータ中の対応する文字列が色付けされるようになっている。例えばそれぞれ緑(G)、赤(R)、青(B)、黄(Y)などの色で色付けされる。このような色分けを施すことにより、子項目の設定などにおいて現在どのテキスト部分に対して設定の作業を行っているのかを把握しやすい。
(26) 表示結果
テスト電文を解析設定処理した結果を出力するエリアである。
また、領域33には、次のような項目もボタンされる。
[8] 結果表示方式
表示結果の表示形式を選択するためのボタンである。
[9] 出力
表示結果のXMLの構造情報を表示させるためのボタンである。
[10] 詳細表示
処理結果の詳細を表示させるためのボタンである。
[11] テスト表示
解析設定情報の実行テストを行うためのボタンである。
[12] 再読込
保存済みの解析設定情報を再度読み込むためのボタンである。
[13] 保存
解析設定情報を保存するためのボタンである。
[14] 閉じる
ところで、図10の設定画面の例では、領域31が表示されておらず、領域32,33が表示された状態にある。すなわち、図9の設定画面において領域31内の[4]ボタンを押下操作することにより、図10の設定画面のように領域31が非表示となる。例えば、テスト電文を選択した後に、領域31を非表示とすることにより、図10の設定画面のように領域32,33の内容が見やすくなるので、設定作業を効率よく進めることができる。
図11は、解析設定情報X1の作成に使用されるタグの一覧を示す図である。
この図11に示されるように、<BLOCK>タグの下には、「バージョン」、「項目名」、「設定名」といった書誌的な事項を示すタグのほか、前述した「書式」(図9中の項目(8)に相当)、「分割モード」(図9中の項目(9)に相当)、「整形指定」(図9中の項目(10)に相当)、「繰り返し指定」(図9中の項目(12)に相当)を示すタグが用意されている。また、これらのタグのほか、末端の<BLOCK>タグの下には、前述した「無効」(図9中の項目(23)に相当)、「抽出」(図9中の項目(17)に相当)、「切出し指定(始/終)」(図9中の項目(18)に相当)、「番目」(図9中の項目(19)に相当)、「文字列」(図9中の項目(20)に相当)、「字数」(図9中の項目(21)に相当)、「説明」(図9中の項目(22)に相当)などを示すタグも用意されている。このような各種のタグと共に対応するパラメータ等のデータを記述することにより、所望の変換ルールが定義された解析設定情報X1を作成することができる。
次に、図12および図13を参照して、解析設定処理部51による動作の一例を説明する。
解析設定処理部51は、テスト電文を入力し(ステップS11)、ブロック毎に、分割や整形に関する設定処理(図9中の(8)書式、(9)分割モード、(10)整形指定、(12)繰り返し指定などを通じて指定された条件の設定処理)などの処理を含む第1のループ処理(ステップS12〜S19)を実行する。
第1のループ処理の中において、分割や整形に関する設定処理を行った後、当該ブロックの中に子ブロックに対する解析設定の情報が存在しなければ(ステップS14の「無」)、当該ブロックが末端のブロックであるものとみなし、当該ブロック内の文字列の切り出し・抽出に関する設定処理(切り出し指定65、抽出66などを通じて指定された条件の設定処理)を行う(ステップS15)。一方、当該ブロックの中に子ブロックに対する解析設定の情報が存在すれば(ステップS14の「有」)、子ブロック毎に、後述する子ブロック内処理(ステップS17)を含む第2のループ処理(ステップS16〜S18)を実行する。
第1のループ処理(ステップS12〜S19)の後、操作者によって図8や図9にて示したテスト表示ボタンが押下されるなどの操作がなされると、テスト電文の変換テストが実行され、その結果が表示される(ステップS20)。テスト結果に問題が無く、操作者によって図8や図9にて示した保存ボタンが押下されるなどの操作がなされると、作成された解析設定情報X1が保存され(ステップS21)、解析設定処理が終了する。
上記子ブロック内処理(ステップS17)の詳細を、図13中のステップS31〜S38に示す。すなわち、子ブロック内処理は、図12中のステップS12〜S19と同様となる。
図13に示されるように、子ブロック内処理においては、分割や整形に関する設定処理(書式61、分割モード62、整形指定63、繰り返し指定64などを通じて指定された条件の設定処理)などの処理を含む第3のループ処理(ステップS31〜S38)を実行する。
第3のループ処理の中において、分割や整形に関する設定処理を行った後、当該子ブロックの中に孫ブロックに対する解析設定の情報が存在しなければ(ステップS33の「無」)、当該子ブロックが末端のブロックであるものとみなし、当該子ブロック内の文字列の切り出し・抽出に関する設定処理(切り出し指定65、抽出66などを通じて指定された条件の設定処理)を行う(ステップS34)。一方、当該子ブロックの中に孫ブロックに対する解析設定の情報が存在すれば(ステップS33の「有」)、孫ブロック毎に、孫ブロック内処理(ステップS36)を含む第4のループ処理(ステップS35〜S37)を実行する。
上記孫ブロック内処理(ステップS36)の詳細は、既に説明した子ブロック内処理の詳細と同様となるため、その説明を省略する。
次に、図14〜図16を参照して、解析実行処理部52による動作の一例を説明する。
解析実行処理部52は、解析設定処理部51により作成された解析設定情報X1に従って、解析対象テキストT2をXML形式の解析結果X2に変換する。これを実現するために、解析実行処理部52は、解析設定情報X1のスクリプト解析処理を実行する。
スクリプト解析処理において、解析実行処理部52は、解析設定情報X1に記述されているタグを一つずつ解析し(ステップS41)、テキスト全体に相当する<BLOCK>タグに含まれる別のタグが<BLOCK>タグであるか否か(子ブロックの解析設定情報があるか否か)を判定する(ステップS42)。
対象のタグが<BLOCK>タグ以外のタグであれば(ステップS42のNo)、そのタグに記述されているパラメータ等の情報(前述した「書式」、「分割モード」、「整形指定」、「繰り返し指定」などに関する情報)を所定の記憶領域に保存する(ステップS43)。ここで保存した情報は、後述する「値の抽出処理モード」や「子の抽出処理モード」の中の処理において使用される。
一方、対象のタグが<BLOCK>タグ(子ブロックのタグ)であれば(ステップS42のYes)、その<BLOCK>タグに別の<BLOCK>タグ(孫ブロックのタグ)が含まれているか否か(孫ブロックの解析設定情報があるか否か)を判定する(ステップS44)。
別の<BLOCK>タグが含まれていなければ(ステップS44のNo)、現在の対象となっている子ブロックが末端のブロックであるため、後述する「値の抽出モード」を実行する(ステップS45)。一方、別の<BLOCK>タグが含まれていれば(ステップS44のYes)、現在の対象となっている子ブロックは末端のブロックでないため、後述する「子の解析処理モード」を実行する(ステップS46)。
上記ステップS41〜S46の処理をタグが無くなるまで繰り返すことにより、XML形式の解析結果X2が生成される。
上記「値の抽出モード」の詳細を図15に示す。また、上記「子の解析処理モード」の詳細を図16に示す。
図15に示される「値の抽出モード」では、末端の<BLOCK>タグに含まれているタグに定義されている情報(前述した「無効」、「抽出」、「切出し指定」、「番目」、「文字列」、「字数」などに関する情報)に基づき、解析対象テキストT2内の該当する文字等の切り出し・抽出を行う。その際、図14中のステップS43にて保存したパラメータ等の情報(前述した「書式」、「分割モード」、「整形指定」、「繰り返し指定」などに関する情報)に示される条件に従って、個々の文字等の切り出し・抽出の処理を進める。
すなわち、解析実行処理部52は、解析対象テキストT2内の該当する文字範囲(親ブロックの設定内容に示される文字範囲)を切り出し(ステップS51)、整形処理を施す(ステップS52)。この整形処理においては、テキストについて、何の条件で、行としてみなしているのか(例えば、「固定文字数取り返し」なのか、「改行コード」折り返しなのか、「特殊文字」を起点に折り返すのか等)を決定する。そして、XMLデータとして、開始タグを記述し(ステップS53)、該当する文字等を抽出して記述し(ステップS54)、最後に終了タグを記述する(ステップS55)。
一方、図16に示される「子の解析処理モード」では、図14中のステップS43にて保存したパラメータ等の情報(前述した「書式」、「分割モード」、「整形指定」、「繰り返し指定」などに関する情報)に示される条件に従って、解析対象テキストT2内の子ブロックの切り出し・抽出の処理を進める。
すなわち、解析実行処理部52は、解析対象テキストT2内の子ブロックを切り出し(ステップS61)、整形処理を施す(ステップS62)。そして、XMLデータとして、開始タグを記述し(ステップS63)、当該切り出し・整形処理を施した子ブロックの解析処理を行って得られる解析結果を記述し(ステップS64)、最後に終了タグを記述する(ステップS65)。
上記ステップS64の子の解析処理の中では、対象の<BLOCK>タグに別の<BLOCK>タグが含まれている限り、上記ステップS61〜S65と同様の処理を繰り返す。対象の<BLOCK>タグに別の<BLOCK>タグが含まれないことが確認できたときに、前述した図15のステップS51〜S55と同様の処理を行う。
以上詳述したように本実施形態によれば、例えば次のような効果が得られる。
・設定画面上に表示される「(8)書式」や「(9)分割モード」を通じて、縦書き・横書きの指定や分割する方向の指定を行えるため、横書きだけの単純な構造のテキストのみならず、縦書き・横書き混在の文書など、複雑な構造のテキストにも柔軟に対応できる。
・設定画面上に表示される「(17)抽出」を通じて、「(18)切出し指定」にて切り出し範囲が指定された文字列の抽出を行うか否かを指定することができるため、切り出し範囲として一度入力したデータを消去したり、再び入力し直したりするといった煩わしさを解消できる。
・設定画面上に表示される「(23)無効」を通じて、「(18)切出し指定」や「(17)抽出」において行われた指定を無効とするか否かを指定することができるため、例えばテスト段階において解析を省略したい部分を一時的に無効にすることができ、試行作業がしやすくなる。
・設定画面上に表示される「(14)項目一覧」を構成する複数の「子項目」は、互いに異なる色で色付けされた色付け部分を有し、「(25)テストデータ」の表示領域においては、上記「子項目」の色付け部分の色と同じ色によって、当該テストデータ中の対応する文字列が色付けされるので、「子項目」の設定において現在どのテキスト部分に対して設定の作業を行っているのかを把握しやすい。
・設定画面上に表示される「(10)整形指定」を通じて、文字列をどのように整形するかを指定することができるため、その形のままでは解析が困難な文字列を解析しやすい形に変えることができ、解析の精度を向上させることが可能となる。
・設定画面上に表示される「(12)繰り返し指定」を通じて、文字列の切り出しをどのような条件で繰り返すかを指定することができるため、表形式のように、同じ解析条件を繰り返したい場合に容易に解析設定をすることができる。
・設定画面上に表示される「(15)項目名」を通じて、タグ名とは別にタグの意味を示す項目名を日本語などで入力できるため、解析設定内容を把握しやすくなる。
・設定画面上に表示される「(22)説明(項目)」を通じて、項目の説明文を入力できるため、設定者の意図やこれまでの経緯を他の設定者に容易に伝えることができる。
なお、上述した実施形態で述べた本発明に係る各種の処理手順は、コンピュータプログラムとして、コンピュータ(情報処理装置)により読み取り可能な記憶媒体(例えば磁気ディスク,光ディスク,半導体メモリ)に記憶させておき、必要に応じてそれをプロセッサにより読み出して実行するようにしてもよい。また、このようなコンピュータプログラムは、通信媒体を介してあるコンピュータから他のコンピュータに伝送することにより配布することも可能である。
本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る情報処理システムの構成の一例を示す図。 図1中に示されるサーバシステムの中の情報処理装置に備えられる解析設定処理部の機能を説明するためのブロック図。 図1中に示されるサーバシステムの中の情報処理装置に備えられる解析実行処理部の機能を説明するためのブロック図。 図2中および図3中に示される解析設定処理部の構成の一例を示すブロック図。 図4中に示される設定画面生成部により生成される設定画面において操作者がブロック毎に入力することのできる主な設定項目を示す図。 分割モードを説明するための図。 繰り返し指定を説明するための図。 図3中に示される解析設定処理部に入力される解析対象テキストおよび出力される解析設定情報の例を示す図 図4中に示される解析画面設定部により生成される設定画面の一例を示す図。 図4中に示される解析画面設定部により生成される設定画面の別の例を示す図。 解析設定情報の作成に使用されるタグの一覧を示す図。 図2中に示される解析設定処理部による動作の一例を示すフローチャート。 図12中に示される子ブロック内処理の詳細を示すフローチャート。 図3中に示される解析実行処理部による動作の一例を示すフローチャート。 図14中に示される「値の抽出モード」の詳細を示すフローチャート。 図14中に示される「子の抽出モード」の詳細を示すフローチャート。
符号の説明
50…テキスト解析ライブラリ、51…解析設定処理部、51A…設定画面生成部、51B…解析設定情報作成部、52…解析実行処理部、100…サーバシステム、101,102,103…端末、200…通信部、300…情報処理装置、D1,D2…記憶部、T1,T2…解析対象テキスト、X1…解析設定情報、X2…解析結果。

Claims (7)

  1. テキストを解析してXML(extensible markup language)に変換する変換ルールを設定するための設定画面として、少なくとも前記テキスト内の解析対象となる範囲の単位であるブロックの中の文字列を縦書きとして解析するのか横書きとして解析するのかを指定するための書式指定項目と、当該ブロックを行方向に分割して解析するのか列方向に分割して解析するのかを指定するための分割モード指定項目とが表示される第1の表示領域と、当該ブロックを分割して得られる個々のブロック毎に文字列の切り出し範囲を指定するための切り出し範囲指定項目が表示される複数の第2の表示領域とを含む設定画面を生成する手段と、
    前記設定画面を通じて指定される個々の条件に基づき、前記変換ルールとして、当該個々の条件を示す情報にそれぞれタグが付された文字列を含む解析設定情報を作成する手段と
    を具備することを特徴とする情報処理装置。
  2. 前記複数の第2の表示領域の各々には、更に、前記切り出し範囲指定項目において切り出し範囲が指定された文字列の抽出を行うか否かを指定するための抽出指定項目が表示されることを特徴とする請求項1に記載の情報処理装置。
  3. 前記複数の第2の表示領域の各々には、更に、少なくとも前記切り出し範囲指定項目および前記抽出指定項目において行われた指定を無効とするか否かを指定するための無効指定項目が表示されることを特徴とする請求項2に記載の情報処理装置。
  4. 前記複数の第2の表示領域は、互いに異なる色で色付けされた色付け部分を有し、
    前記設定画面は、テキストが表示されるテキスト表示領域を含み、各第2の表示領域の色付け部分の色と同じ色によって、当該テキスト中の対応する文字列が色付けされることを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記第1の表示領域には、更に、文字列をどのように整形するかを指定するための整形指定項目が表示されることを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記第1の表示領域には、更に、文字列の切り出しをどのような条件で繰り返すかを指定するための繰り返し指定項目が表示されることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. テキストを解析してXML(extensible markup language)に変換する変換ルールを設定するための設定画面として、少なくとも前記テキスト内の解析対象となる範囲の単位であるブロックの中の文字列を縦書きとして解析するのか横書きとして解析するのかを指定するための書式指定項目と、当該ブロックを行方向に分割して解析するのか列方向に分割して解析するのかを指定するための分割モード指定項目とが表示される第1の表示領域と、当該ブロックを分割して得られる個々のブロック毎に文字列の切り出し範囲を指定するための切り出し範囲指定項目が表示される複数の第2の表示領域とを含む設定画面を生成する機能と、
    前記設定画面を通じて指定される個々の条件に基づき、前記変換ルールとして、当該個々の条件を示す情報にそれぞれタグが付された文字列を含む解析設定情報を作成する機能と
    をコンピュータに実現させることを特徴とするプログラム。
JP2007224903A 2007-08-30 2007-08-30 情報処理装置およびプログラム Pending JP2009059110A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007224903A JP2009059110A (ja) 2007-08-30 2007-08-30 情報処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007224903A JP2009059110A (ja) 2007-08-30 2007-08-30 情報処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2009059110A true JP2009059110A (ja) 2009-03-19

Family

ID=40554797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007224903A Pending JP2009059110A (ja) 2007-08-30 2007-08-30 情報処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2009059110A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117270962A (zh) * 2023-11-22 2023-12-22 北京渲光科技有限公司 一种处理着色语言的方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117270962A (zh) * 2023-11-22 2023-12-22 北京渲光科技有限公司 一种处理着色语言的方法、装置、存储介质及电子设备
CN117270962B (zh) * 2023-11-22 2024-02-09 北京渲光科技有限公司 一种处理着色语言的方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN103635897B (zh) 对运行页面进行动态更新的方法
US7315867B2 (en) Document processing apparatus, document processing method, document processing program, and recording medium
CN100390735C (zh) 用于产生图形用户接口模型的方法和系统
US8387055B1 (en) System and method for providing information and associating information
CN107544806A (zh) 可视化表单绘制方法
EP1821219A1 (en) Document processing device and document processing method
US20180004713A1 (en) Electronic file generation apparatus, electronic file generation method, non-transitory computer-readable storage medium for storing setting regions and electronic documents.
US20100100807A1 (en) Data processing device, and data processing method
US20090083300A1 (en) Document processing device and document processing method
US7685229B1 (en) System and method for displaying server side code results in an application program
EP1830274A1 (en) Server device and name space issuing method
Bagley et al. Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements
EP1744256A1 (en) Document processing device and document processing method
WO2006103760A1 (ja) 文書変換活用システム
JPWO2006001392A1 (ja) 文書処理方法および装置
US20080005085A1 (en) Server Device and Search Method
EP1837776A1 (en) Document processing device and document processing method
JPWO2007052680A1 (ja) 文書処理装置及び文書処理方法
US20090237405A1 (en) Data processing apparatus and data processing method
JP2009059110A (ja) 情報処理装置およびプログラム
US20100138735A1 (en) Document processing device
JP2007265011A (ja) 画面プログラムレイアウト変更方法および情報処理装置およびプログラムおよび記録媒体
JP2008052356A (ja) ソースコード自動生成装置
US20090083620A1 (en) Document processing device and document processing method
JP2008217170A (ja) 情報処理装置およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100615