JP3966086B2 - 文書処理装置および方法 - Google Patents

文書処理装置および方法 Download PDF

Info

Publication number
JP3966086B2
JP3966086B2 JP2002169130A JP2002169130A JP3966086B2 JP 3966086 B2 JP3966086 B2 JP 3966086B2 JP 2002169130 A JP2002169130 A JP 2002169130A JP 2002169130 A JP2002169130 A JP 2002169130A JP 3966086 B2 JP3966086 B2 JP 3966086B2
Authority
JP
Japan
Prior art keywords
identifier
document data
display
document
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002169130A
Other languages
English (en)
Other versions
JP2004013737A (ja
Inventor
明男 山下
猛志 永峯
克典 芳地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2002169130A priority Critical patent/JP3966086B2/ja
Publication of JP2004013737A publication Critical patent/JP2004013737A/ja
Application granted granted Critical
Publication of JP3966086B2 publication Critical patent/JP3966086B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書処理技術に関し、とくに所定の語句を他の文書部分と異なる表示属性で表示する技術に関する。
【0002】
【従来の技術】
文書(一まとまりの自然言語データ)に対して自然言語処理、たとえば固有名詞等の所定のカテゴリに属する語句や重要語句の抽出や検索を行うことがある。このような自然言語処理の対象は、プレーンテキストのファイルであり、解析結果の単語の位置は、プレーンテキストにおける、境界位置であったり、開始位置と長さで表される。例えば、特開平6−28393号公報(自然言語解析の形態素解析処理方式)には、解析結果(形態素データ)における形態素の位置は、文章での位置と形態素長さとしている。
【0003】
HTML、XMLなどのタグ付き文書の場合には、タグを除去し、除去した結果のプレーンテキストを対象に処理していた。Microsoft Word(商標)などのバイナリ文書の場合には、内容テキストを抽出し、プレーンテキストやHTMLテキストにして処理していた。
【0004】
ところで、解析結果に基づいて、入力テキストにハイライト表示を行う場合、位置情報を基に入力テキストの整形処理が必要であった。例えば、HTML形式で表示する場合、該当単語の前後に色を変えるタグを入れることになる。
【0005】
しかしながら、入力データのレイアウトが変わるような場合、例えば、入力ファイルを所定の条件のもとで変換して表示する場合や、動的に生成されるWEBページのような場合、変換・生成されたページに抽出データを再構築するという無駄の処理が発生していた。
【0006】
既存の抽出データの位置情報をレイアウトの変更箇所を検出して補正する方策をとった場合には、補正処理が複雑になる。また、動的に生成されるWEBページに対しては、生成後のWEBページに対して再度解析を行わざるをえず、応答までに余分な時間がかかる。
【0007】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、文書をレイアウト変更等して表示する場合でも、抽出した語句の位置情報を再取得したり、補正したりする手間をなくすようにすることをを目的としている。
【0008】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
【0009】
この発明では、例えば、入力データから抽出された重要語句をIDと関連づけて管理し、入力データの中の抽出語句にIDを関連づけてもたせておく。レイアウトの変更のような整形では、ID付き入力データを整形し、整形後の出力ファイルに対してハイライト表示をする際に、IDから抽出語句のカテゴリを取得して、指定された表示形態でハイライト表示するようにする。
【0010】
動的に生成されるWEBページの場合には、生成前の元データ内の重要語句をIDに置き換えて保存しておき、ページの生成時点でIDから重要語句やカテゴリを取得して、指定された表示形態のWEBページを生成するようにする。
【0011】
この発明をさらに説明する。
【0012】
すなわち、この発明の一側面によれば、上述の目的を達成するために、文書処理装置に:所定の語句について、文字列、カテゴリ、識別子を記憶する語句情報記憶手段と;上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶手段を参照して対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する文書データ復元手段と;上記文書データ復元手段によって識別子を上記対応する語句に置き換え、さらにカテゴリの表示属性を付加した文書データを表示する手段とを設けている。
【0013】
この構成においては、識別子自体がカテゴリに関連づけられているので、レイアウト変更や動的な文書作成の場合でも、そのカテゴリの情報から語句の表示属性を簡易に取得できる。
【0014】
語句にカテゴリを介して表示属性に関連づけるのではなく、語句に表示属性を直接に関連づけるようにしてもよい。
【0015】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【0016】
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下実施例を用いて詳細に説明される。
【0017】
【発明の実施の形態】
以下、この発明の実施例について説明する。
【0018】
[第1の実施例]
図1は、所定の語句を抽出する言語処理を行ってその処理結果を表示する文書処理装置にこの発明を適用した第1の実施例を示しており、この図において、文書処理装置は、入力ファイル格納部11、固有表現抽出部12、抽出結果格納部13、ID付きファイル格納部14、表示データ生成部15および表示部16等を含んで構成されている。なお、固有表現抽出部12の「固有表現」は、人名、組織名等の固有名詞や、日時、価格(通貨)等の重要語句を指し示すものとする。重要語句は自然言語処理の目的等により変化する。
【0019】
入力ファイル格納部11は、処理対象の文書データを記憶している。この例では、文書データはたとえば記事データなどであり、HTMLファイルのセットである。固有表現抽出部12は、文書データから人名、企業名、日時、場所などの固有表現を抽出する。抽出結果格納部13は、固有表現抽出部12が抽出した情報を格納する。個々の抽出結果(エンティティとも呼ぶ)にはトークンIDが付され、このトークンIDを基に抽出結果を参照できるようになっている。また、先の固有表現抽出部12は、固有表現の抽出に合わせて、文書データ中の固有表現をトークンIDに置き換えてID付きファイルに変換する。ID付きファイル格納部14はこのID付きファイルを記憶する。
【0020】
表示データ生成部15は、抽出結果格納部13を参照して、ID付きファイル格納部14のID付きファイル中のトークンIDを、色分けなどの表示属性データを伴う、語句のデータに変換して表示データを生成する。表示部16は、表示データ生成部15が生成した表示データを表示する。
【0021】
この実施例の動作を具体例を挙げ、さらに従来の手法と比較しながら説明する。この説明では、記事データベースからXML文書を作成し、ブラウザで表示する場合を説明する。
【0022】
処理対象の記事データベースのレコードは図2に示すようなものである。
【0023】
記事データベースのレコードは図3に示すようなXMLファイルに変換されて入力ファイル格納部11に記憶される。XMLファイルをブラウザで表示することにより記事レコードを閲覧することができる。図4は、ブラウザで表示した例を示す。
【0024】
さて、従来の手法では、固有表現抽出部12がXMLファイルから抽出した抽出結果を図5に示すようなXMLファイルで保持する。この図に示されるように、抽出結果は、エンティティの集合になっていて、各エンティティは、固有表現の文字列(name)、そのカテゴリ(category)、先頭からカウントした開始位置(offset)、語句の長さ(length)等の情報から構成される。
【0025】
エンティティの先頭からカウントした開始位置(offset)は、XMLファイルの先頭からのバイト数であり、XMLファイルの内容に依存する。所定の条件で内容を変更したり(例えば要約にする)、解析対象のレコードに他の情報を付加したりして動的にWEBページを構成する場合には、ブラウザで表示されるXMLファイルの内容も変更されるので、エンティティの先頭からカウントした開始位置も変わってしまい、計算し直す必要がある。
【0026】
固有表現抽出結果を基に入力ファイルに色分けのタグを挿入し表示データとする。
【0027】
図6は、色分けタグによりカテゴリごとに色表示を行った場合のブラウザによる表示例を示す。
【0028】
つぎに、この実施例の固有表現抽出結果の例を説明する。
【0029】
この実施例の固有表現抽出結果は、従来のような、先頭からカウントした開始位置(offset)、語句の長さ(length)のような位置情報を用いるのではなく、図7に示すように、トークンIDを用いて表される。図7はXMLで表記されたものである。これを表形式で表すと図8に示すようになる。
【0030】
またID付きファイルは図9に示すようになる。
【0031】
表示データ生成部15は、XSLTを用いて、ID付きファイル格納部14のID付きファイルと抽出結果格納部13の抽出結果とに基づいて、トークンIDを、色分けタグを伴う固有表現語句に変換して表示用のHTMLファイルを生成して表示部16により表示する。例えば図6に示すような表示結果を得る。XSLTで用いるXSLファイルを変更して、例えば、目的のXTMLファイルを日付とタイトルからなる表形式に表示形式を変更した場合でも、トークンIDは変わらないので、従前のような固有表現の再抽出を行う必要がない。
【0032】
ここで、ID付きファイル生成の具体的な動作および表示データ生成の具体的な動作について説明しておく。
【0033】
ID付きファイルはつぎのように生成される。
【表1】
Figure 0003966086
【0034】
表示データ生成の具体的な動作は次のようなものである。
【0035】
【表2】
Figure 0003966086
【0036】
[第2の実施例]
つぎにこの発明の第2の実施例について図10を参照して説明する。この実施例では第1の実施例の入力ファイル格納部11およびID付きファイル格納部14に代えて文書データ格納部21を設けている。この実施例では、文書データ格納部21に当初は入力ファイルを格納し、この入力ファイルに対して固有表現抽出部12により固有表現抽出を行い、この過程で固有表現をトークンIDに置き換えていく。最終的な文書データ格納部21の内容は図11に示すようになる。この例でも第1の実施例と同様に固有表現の再抽出の問題が生じない。
【0037】
図10において図1と対応する箇所には対応する符号を付して詳細な説明を省略した。
【0038】
なお、図10において、文書データ格納部21に、トークンID付きの文書データ(例えば図11のようなもの)および固有表現抽出結果を外部から、あるいは他のアプリケーションのプロセスから受け取るようにしてもよい。この場合、固有表現抽出部12は必須でなくなる。
【0039】
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では、固有表現を抽出する例を説明したが、キーワード検索を行って、文書または文書の該当部分を取り出し、その中でキーワードを特定する場合にもこの発明を適用できる。キーワードの種類や何番目のキーワードかによって表示属性を変えるようにしてもよい。
【0040】
また、色分け等の表示属性を付加しなくてもよい。例えば、トークンIDに対応する文字列を修正するようにしてもよい。
【0041】
【発明の効果】
以上説明したように、この発明によれば、解析結果の語句を識別子に関連づけるようにしたので、レイアウト変更等を行っても解析結果の内容が維持され、再度の解析等の作業がなくすことができる。
【図面の簡単な説明】
【図1】 この発明の第1の実施例の構成を示すブロック図である。
【図2】 上述実施例において扱う入力例を説明する図である。
【図3】 上述実施例の入力ファイル格納部のXMLファイルの例を説明する図である。
【図4】 上述入力例の表示例を説明する図である。
【図5】 従来の固有表現抽出結果を説明する図である。
【図6】 固有表現をハイライトして示す表示例を説明する図である。
【図7】 上述実施例の固有表現抽出結果を説明する図である。
【図8】 上述実施例の抽出結果格納部を説明する図である。
【図9】 上述実施例のID付きファイル格納部を説明する図である。
【図10】 この発明の第2の実施例の構成を示すブロック図である。
【図11】 上述の実施例の文書データ格納部の格納データを説明する図である。
【符号の説明】
11 入力ファイル格納部
12 固有表現抽出部
13 抽出結果格納部
14 ID付きファイル格納部
15 表示データ生成部
16 表示部
21 文書データ格納部

Claims (5)

  1. 文書データ中の所定の語句を抽出する語句抽出手段と、
    上記所定の語句の各々について、文字列、カテゴリ、識別子を記憶する語句情報記憶手段と、
    語句のカテゴリごとに対応する表示属性を記憶する表示属性記憶手段と、
    上記文書中の上記所定の語句の各々それぞれ対応する識別子に置き換えた識別子付き文書データを保持する識別子付き文書データ記憶手段と、
    上記識別子付き文書データ記憶手段に記憶されている識別子付き文書データから生成された、上記識別子を含む文書データについて、当該識別子の各々を、上記語句情報記憶手段および上記表示属性記憶手段を参照してそれぞれ対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する表示データ生成手段と、
    上記表示データ生成手段によって、上記識別子の各々を上記対応する語句にそれぞれ置き換え、さらにカテゴリの表示属性を付加した文書データを表示する手段とを有することを特徴とする文書処理装置。
  2. 上記所定の語句は検索用のキーワードである請求項1記載の文書処理装置。
  3. 上記所定の語句は、カテゴリが固有名詞、日時および価格のいずれかである語句である請求項1または2記載の文書処理装置。
  4. 語句抽出手段が、文書データ中の所定の語句を抽出するステップと、
    語句情報記憶手段が、上記所定の語句の各々について、文字列、カテゴリ、識別子を記憶するステップと、
    表示属性記憶手段が、語句のカテゴリごとに対応する表示属性を記憶するステップと、
    識別子付き文書データ記憶手段が、上記文書中の上記所定の語句の各々をそれぞれ対応する識別子に置き換えた識別子付き文書データを保持するステップと、
    表示データ生成手段が、上記識別子付き文書データ記憶手段に記憶されている識別子付き文書データから生成された、上記識別子を含む文書データについて、当該識別子の各々を、上記語句情報記憶手段および上記表示属性記憶手段を参照してそれぞれ対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加するステップと、
    表示手段が、上記表示データ生成手段によって、上記識別子の各々を上記対応する語句にそれぞれ置き換え、さらにカテゴリの表示属性を付加した文書データを表示するステップとを有することを特徴とする文書処理方法。
  5. 語句抽出手段が、文書データ中の所定の語句を抽出するステップと、
    語句情報記憶手段が、上記所定の語句の各々について、文字列、カテゴリ、識別子を記憶するステップと、
    表示属性記憶手段が、語句のカテゴリごとに対応する表示属性を記憶するステップと、
    識別子付き文書データ記憶手段が、上記文書中の上記所定の語句の各々をそれぞれ対応する識別子に置き換えた識別子付き文書データを保持するステップと、
    表示データ生成手段が、上記識別子付き文書データ記憶手段に記憶されている識別子付き文書データから生成された、上記識別子を含む文書データについて、当該識別子の各々を、上記語句情報記憶手段および上記表示属性記憶手段を参照してそれぞれ対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加するステップと、
    表示手段が、上記表示データ生成手段によって、上記識別子の各々を上記対応する語句にそれぞれ置き換え、さらにカテゴリの表示属性を付加した文書データを表示するステップとをコンピュータに実行させるための文書処理用コンピュータプログラム。
JP2002169130A 2002-06-10 2002-06-10 文書処理装置および方法 Expired - Fee Related JP3966086B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002169130A JP3966086B2 (ja) 2002-06-10 2002-06-10 文書処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002169130A JP3966086B2 (ja) 2002-06-10 2002-06-10 文書処理装置および方法

Publications (2)

Publication Number Publication Date
JP2004013737A JP2004013737A (ja) 2004-01-15
JP3966086B2 true JP3966086B2 (ja) 2007-08-29

Family

ID=30435836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002169130A Expired - Fee Related JP3966086B2 (ja) 2002-06-10 2002-06-10 文書処理装置および方法

Country Status (1)

Country Link
JP (1) JP3966086B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005156855A (ja) 2003-11-25 2005-06-16 Nec Corp 多チャンネルマッハツェンダ干渉計型光回路
JPWO2006046664A1 (ja) * 2004-10-27 2008-05-22 株式会社ジャストシステム 時間共有管理装置、文書作成装置、文書閲覧装置、時間共有管理方法、文書作成方法および文書閲覧方法
JP4735155B2 (ja) * 2005-09-21 2011-07-27 富士ゼロックス株式会社 表示装置及び文字列データベース再定義方法
JP2007293452A (ja) * 2006-04-21 2007-11-08 Canon Inc 文書処理装置及びその制御方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP2004013737A (ja) 2004-01-15

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
US7958444B2 (en) Visualizing document annotations in the context of the source document
US6119077A (en) Translation machine with format control
US7707139B2 (en) Method and apparatus for searching and displaying structured document
US6182029B1 (en) System and method for language extraction and encoding utilizing the parsing of text data in accordance with domain parameters
US7111011B2 (en) Document processing apparatus, document processing method, document processing program and recording medium
US9208136B2 (en) Automated document revision markup and change control
US20040162842A1 (en) Computerized document processing apparatus, computerized document processing method
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
US20070067336A1 (en) Electronic publishing system and method for managing publishing requirements in a neutral format
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP3966086B2 (ja) 文書処理装置および方法
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
TW482962B (en) Method of automatic extracting for key features in digital document
JP3954520B2 (ja) 翻訳支援システム
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
Cordova et al. Processing Quechua and Guarani historical texts query expansion at character and word level for information retrieval
Walker Taking Snapshots of the Web with a TEI Camera
JP4007661B2 (ja) 自然言語統計データベース装置
Ide et al. Background and context for the development of a Corpus Encoding Standard
JP2021077393A (ja) オープンデータを効率的に構造化し補正する方法及びプログラム
JP2650099B2 (ja) ドキュメント抽出装置
JP3621008B2 (ja) テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体
JPH09265469A (ja) ハイパーテキスト型文書の翻訳方法およびhtml文書の翻訳装置
JP3909296B2 (ja) 文書校正方法および文書校正装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070521

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees