JP2004013737A - 文書処理装置および方法 - Google Patents

文書処理装置および方法 Download PDF

Info

Publication number
JP2004013737A
JP2004013737A JP2002169130A JP2002169130A JP2004013737A JP 2004013737 A JP2004013737 A JP 2004013737A JP 2002169130 A JP2002169130 A JP 2002169130A JP 2002169130 A JP2002169130 A JP 2002169130A JP 2004013737 A JP2004013737 A JP 2004013737A
Authority
JP
Japan
Prior art keywords
identifier
document data
phrase
character string
display attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002169130A
Other languages
English (en)
Other versions
JP3966086B2 (ja
Inventor
Akio Yamashita
山下 明男
Takeshi Nagamine
永峯 猛志
Katsunori Yoshiji
芳地 克典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002169130A priority Critical patent/JP3966086B2/ja
Publication of JP2004013737A publication Critical patent/JP2004013737A/ja
Application granted granted Critical
Publication of JP3966086B2 publication Critical patent/JP3966086B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文書をレイアウト変更等して表示する場合でも、抽出した語句の位置情報を再取得したり、補正したりする手間をなくす。
【解決手段】入力ファイル格納部11は、処理対象の文書データを記憶している。固有表現抽出部12は、文書データから人名、企業名、日時、場所などの固有表現を抽出し、抽出結果格納部13に記憶する。個々の抽出結果にはトークンIDが付され、このトークンIDを基に抽出結果を参照できる。先の固有表現抽出部12は、固有表現の抽出に合わせて、文書データ中の固有表現をトークンIDに置き換えてID付きファイルに変換し、ID付きファイル格納部14に記憶する。表示データ生成部5は、抽出結果格納部13を参照して、ID付きファイル中のトークンIDを、色分けなどの表示属性データを伴う、語句のデータに変換して表示データを生成し、表示部16が表示データを表示する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、文書処理技術に関し、とくに所定の語句を他の文書部分と異なる表示属性で表示する技術に関する。
【0002】
【従来の技術】
文書(一まとまりの自然言語データ)に対して自然言語処理、たとえば固有名詞等の所定のカテゴリに属する語句や重要語句の抽出や検索を行うことがある。このような自然言語処理の対象は、プレーンテキストのファイルであり、解析結果の単語の位置は、プレーンテキストにおける、境界位置であったり、開始位置と長さで表される。例えば、特開平6−28393号公報(自然言語解析の形態素解析処理方式)には、解析結果(形態素データ)における形態素の位置は、文章での位置と形態素長さとしている。
【0003】
HTML、XMLなどのタグ付き文書の場合には、タグを除去し、除去した結果のプレーンテキストを対象に処理していた。Microsoft Word(商標)などのバイナリ文書の場合には、内容テキストを抽出し、プレーンテキストやHTMLテキストにして処理していた。
【0004】
ところで、解析結果に基づいて、入力テキストにハイライト表示を行う場合、位置情報を基に入力テキストの整形処理が必要であった。例えば、HTML形式で表示する場合、該当単語の前後に色を変えるタグを入れることになる。
【0005】
しかしながら、入力データのレイアウトが変わるような場合、例えば、入力ファイルを所定の条件のもとで変換して表示する場合や、動的に生成されるWEBページのような場合、変換・生成されたページに抽出データを再構築するという無駄の処理が発生していた。
【0006】
既存の抽出データの位置情報をレイアウトの変更箇所を検出して補正する方策をとった場合には、補正処理が複雑になる。また、動的に生成されるWEBページに対しては、生成後のWEBページに対して再度解析を行わざるをえず、応答までに余分な時間がかかる。
【0007】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、文書をレイアウト変更等して表示する場合でも、抽出した語句の位置情報を再取得したり、補正したりする手間をなくすようにすることをを目的としている。
【0008】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
【0009】
この発明では、例えば、入力データから抽出された重要語句をIDと関連づけて管理し、入力データの中の抽出語句にIDを関連づけてもたせておく。レイアウトの変更のような整形では、ID付き入力データを整形し、整形後の出力ファイルに対してハイライト表示をする際に、IDから抽出語句のカテゴリを取得して、指定された表示形態でハイライト表示するようにする。
【0010】
動的に生成されるWEBページの場合には、生成前の元データ内の重要語句をIDに置き換えて保存しておき、ページの生成時点でIDから重要語句やカテゴリを取得して、指定された表示形態のWEBページを生成するようにする。
【0011】
この発明をさらに説明する。
【0012】
すなわち、この発明の一側面によれば、上述の目的を達成するために、文書処理装置に:所定の語句について、文字列、カテゴリ、識別子を記憶する語句情報記憶手段と;上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶手段を参照して対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する文書データ復元手段と;上記文書データ復元手段によって識別子を上記対応する語句に置き換え、さらにカテゴリの表示属性を付加した文書データを表示する手段とを設けている。
【0013】
この構成においては、識別子自体がカテゴリに関連づけられているので、レイアウト変更や動的な文書作成の場合でも、そのカテゴリの情報から語句の表示属性を簡易に取得できる。
【0014】
語句にカテゴリを介して表示属性に関連づけるのではなく、語句に表示属性を直接に関連づけるようにしてもよい。
【0015】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【0016】
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下実施例を用いて詳細に説明される。
【0017】
【発明の実施の形態】
以下、この発明の実施例について説明する。
【0018】
[第1の実施例]
図1は、所定の語句を抽出する言語処理を行ってその処理結果を表示する文書処理装置にこの発明を適用した第1の実施例を示しており、この図において、文書処理装置は、入力ファイル格納部11、固有表現抽出部12、抽出結果格納部13、ID付きファイル格納部14、表示データ生成部15および表示部16等を含んで構成されている。なお、固有表現抽出部12の「固有表現」は、人名、組織名等の固有名詞や、日時、価格(通貨)等の重要語句を指し示すものとする。重要語句は自然言語処理の目的等により変化する。
【0019】
入力ファイル格納部11は、処理対象の文書データを記憶している。この例では、文書データはたとえば記事データなどであり、HTMLファイルのセットである。固有表現抽出部12は、文書データから人名、企業名、日時、場所などの固有表現を抽出する。抽出結果格納部13は、固有表現抽出部12が抽出した情報を格納する。個々の抽出結果(エンティティとも呼ぶ)にはトークンIDが付され、このトークンIDを基に抽出結果を参照できるようになっている。また、先の固有表現抽出部12は、固有表現の抽出に合わせて、文書データ中の固有表現をトークンIDに置き換えてID付きファイルに変換する。ID付きファイル格納部14はこのID付きファイルを記憶する。
【0020】
表示データ生成部15は、抽出結果格納部13を参照して、ID付きファイル格納部14のID付きファイル中のトークンIDを、色分けなどの表示属性データを伴う、語句のデータに変換して表示データを生成する。表示部16は、表示データ生成部15が生成した表示データを表示する。
【0021】
この実施例の動作を具体例を挙げ、さらに従来の手法と比較しながら説明する。この説明では、記事データベースからXML文書を作成し、ブラウザで表示する場合を説明する。
【0022】
処理対象の記事データベースのレコードは図2に示すようなものである。
【0023】
記事データベースのレコードは図3に示すようなXMLファイルに変換されて入力ファイル格納部11に記憶される。XMLファイルをブラウザで表示することにより記事レコードを閲覧することができる。図4は、ブラウザで表示した例を示す。
【0024】
さて、従来の手法では、固有表現抽出部12がXMLファイルから抽出した抽出結果を図5に示すようなXMLファイルで保持する。この図に示されるように、抽出結果は、エンティティの集合になっていて、各エンティティは、固有表現の文字列(name)、そのカテゴリ(category)、先頭からカウントした開始位置(offset)、語句の長さ(length)等の情報から構成される。
【0025】
エンティティの先頭からカウントした開始位置(offset)は、XMLファイルの先頭からのバイト数であり、XMLファイルの内容に依存する。所定の条件で内容を変更したり(例えば要約にする)、解析対象のレコードに他の情報を付加したりして動的にWEBページを構成する場合には、ブラウザで表示されるXMLファイルの内容も変更されるので、エンティティの先頭からカウントした開始位置も変わってしまい、計算し直す必要がある。
【0026】
固有表現抽出結果を基に入力ファイルに色分けのタグを挿入し表示データとする。
【0027】
図6は、色分けタグによりカテゴリごとに色表示を行った場合のブラウザによる表示例を示す。
【0028】
つぎに、この実施例の固有表現抽出結果の例を説明する。
【0029】
この実施例の固有表現抽出結果は、従来のような、先頭からカウントした開始位置(offset)、語句の長さ(length)のような位置情報を用いるのではなく、図7に示すように、トークンIDを用いて表される。図7はXMLで表記されたものである。これを表形式で表すと図8に示すようになる。
【0030】
またID付きファイルは図9に示すようになる。
【0031】
表示データ生成部15は、XSLTを用いて、ID付きファイル格納部14のID付きファイルと抽出結果格納部13の抽出結果とに基づいて、トークンIDを、色分けタグを伴う固有表現語句に変換して表示用のHTMLファイルを生成して表示部16により表示する。例えば図6に示すような表示結果を得る。XSLTで用いるXSLファイルを変更して、例えば、目的のXTMLファイルを日付とタイトルからなる表形式に表示形式を変更した場合でも、トークンIDは変わらないので、従前のような固有表現の再抽出を行う必要がない。
【0032】
ここで、ID付きファイル生成の具体的な動作および表示データ生成の具体的な動作について説明しておく。
【0033】
ID付きファイルはつぎのように生成される。
【表1】
(Step0)入力ファイルをオープンする
ID付きファイル格納部に当たる出力ファイルをオープンする
抽出結果格納部に対応する管理ファイルをオープンする
(Step1)入力ファイルから1行を読込み、変数Strに格納する
(Step2)Strの値が空(NULL)でない場合(Step3からStep8を実行)
(Step3)Strの内容から固有表現を抽出する
(Step4)固有表現が抽出された場合(Step5からStep7を実行)
(Step5)新規トークンIDを得る
(Step6)該トークンID、カテゴリ、固有表現の3項を
抽出結果格納部に登録
(Step7)Strの内容を置換;固有表現−>
<tkn>トークンID</tkn>
(Step8)出力ファイルにSTRを出力する
(Step9)入力ファイルをクローズする
ID付きファイル格納部に当たる出力ファイルをクローズする
抽出結果格納部に対応する管理ファイルをクローズする
【0034】
表示データ生成の具体的な動作は次のようなものである。
【0035】
【表2】
(Step0)ID付きファイル格納部に当たる出力ファイルをオープンする
抽出結果格納部に対応する管理ファイルをオープンする
(Step1)入力ファイルから1行を読込み、変数Strに格納する
(Step2)Strの値が空(NULL)でない場合(Step3からStep8を実行)
(Step3)Strの内容から<tkn>*</tkn>を検索する
(Step4)トークンIDが抽出された場合(Step5からStep6を実行)
(Step5)新規トークンIDに対応するカテゴリと固有表現を検索する
(Step6)Str内で<tkn>*</tkn>の部分を固有表現で
置き換える
(Step7)出力ファイルにSTRを出力する
(Step8)ID付きファイル格納部に当たる出力ファイルをクローズする
抽出結果格納部に対応する管理ファイルをクローズする
【0036】
[第2の実施例]
つぎにこの発明の第2の実施例について図10を参照して説明する。この実施例では第1の実施例の入力ファイル格納部11およびID付きファイル格納部14に代えて文書データ格納部21を設けている。この実施例では、文書データ格納部21に当初は入力ファイルを格納し、この入力ファイルに対して固有表現抽出部12により固有表現抽出を行い、この過程で固有表現をトークンIDに置き換えていく。最終的な文書データ格納部21の内容は図11に示すようになる。この例でも第1の実施例と同様に固有表現の再抽出の問題が生じない。
【0037】
図10において図1と対応する箇所には対応する符号を付して詳細な説明を省略した。
【0038】
なお、図10において、文書データ格納部21に、トークンID付きの文書データ(例えば図11のようなもの)および固有表現抽出結果を外部から、あるいは他のアプリケーションのプロセスから受け取るようにしてもよい。この場合、固有表現抽出部12は必須でなくなる。
【0039】
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では、固有表現を抽出する例を説明したが、キーワード検索を行って、文書または文書の該当部分を取り出し、その中でキーワードを特定する場合にもこの発明を適用できる。キーワードの種類や何番目のキーワードかによって表示属性を変えるようにしてもよい。
【0040】
また、色分け等の表示属性を付加しなくてもよい。例えば、トークンIDに対応する文字列を修正するようにしてもよい。
【0041】
【発明の効果】
以上説明したように、この発明によれば、解析結果の語句を識別子に関連づけるようにしたので、レイアウト変更等を行っても解析結果の内容が維持され、再度の解析等の作業がなくすことができる。
【図面の簡単な説明】
【図1】この発明の第1の実施例の構成を示すブロック図である。
【図2】上述実施例において扱う入力例を説明する図である。
【図3】上述実施例の入力ファイル格納部のXMLファイルの例を説明する図である。
【図4】上述入力例の表示例を説明する図である。
【図5】従来の固有表現抽出結果を説明する図である。
【図6】固有表現をハイライトして示す表示例を説明する図である。
【図7】上述実施例の固有表現抽出結果を説明する図である。
【図8】上述実施例の抽出結果格納部を説明する図である。
【図9】上述実施例のID付きファイル格納部を説明する図である。
【図10】この発明の第2の実施例の構成を示すブロック図である。
【図11】上述の実施例の文書データ格納部の格納データを説明する図である。
【符号の説明】
11   入力ファイル格納部
12   固有表現抽出部
13   抽出結果格納部
14   ID付きファイル格納部
15   表示データ生成部
16   表示部
21   文書データ格納部

Claims (10)

  1. 所定の語句について、文字列、カテゴリ、識別子を記憶する語句情報記憶手段と、
    上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶手段を参照して対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する文書データ復元手段と、
    上記文書データ復元手段によって識別子を上記対応する語句に置き換え、さらにカテゴリの表示属性を付加した文書データを表示する手段とを有することを特徴とする文書処理装置。
  2. 所定の語句について、文字列、表示属性、識別子を記憶する語句情報記憶手段と、
    上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶手段を参照して対応する文字列に置き換え、かつ対応する表示属性を付加する文書データ復元手段と、
    上記文書データ復元手段によって識別子を上記対応する語句に置き換え、さらに表示属性を付加した文書データを表示する手段とを有することを特徴とする文書処理装置。
  3. 文書データ中の所定の語句を抽出する語句抽出手段と、
    上記所定の語句について、文字列、カテゴリ、識別子を記憶する語句情報記憶手段と、
    語句のカテゴリごとに対応する表示属性を記憶する表示属性記憶手段と、
    上記文書中の上記所定の語句を対応する識別子に置き換えた識別子付き文書データを保持する識別子付き文書データ記憶手段と、
    上記識別子付き文書データ記憶手段に記憶されている識別子付き文書データから生成された、上記識別子を含む文書データについて、当該識別子を、上記語句情報記憶手段および上記表示属性記憶手段を参照して対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する表示データ生成手段と、
    上記表示データ生成手段によって、上記識別子を上記対応する語句に置き換え、さらにカテゴリの表示属性を付加した文書データを表示する手段とを有することを特徴とする文書処理装置。
  4. 上記所定の語句は検索用のキーワードである請求項1、2または3記載の文書処理装置。
  5. 上記所定の語句は所定の範囲のカテゴリを有する語句である請求項1、2または3記載の文書処理装置。
  6. 所定の語句と、対応する識別子とを関連づけて記憶する語句情報記憶手段と、
    上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶手段を参照して対応する語句に置き換える文書データ復元手段と、
    上記文書データ復元手段によって上記識別子を上記対応する語句に置き換えた文書データを表示する手段とを有することを特徴とする文書処理装置。
  7. 所定の語句について、文字列、カテゴリ、識別子を記憶する語句情報記憶ステップと、
    上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶ステップにより記憶された上記文字列、カテゴリ、識別子を参照して、対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する文書データ復元ステップと、
    上記文書データ復元ステップによって識別子を上記対応する文字列に置き換え、さらにカテゴリの表示属性を付加した文書データを表示するステップとを有することを特徴とする文書処理方法。
  8. 所定の語句について、文字列、カテゴリ、識別子を記憶する語句情報記憶ステップと、
    上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶ステップにより記憶された上記文字列、カテゴリ、識別子を参照して、対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する文書データ復元ステップと、
    上記文書データ復元ステップによって識別子を上記対応する文字列に置き換え、さらにカテゴリの表示属性を付加した文書データを表示するステップとをコンピュータに実行させるために用いられることを特徴とする文書処理用コンピュータプログラム。
  9. 所定の語句について、文字列、表示属性、識別子を記憶する語句情報記憶ステップと、
    上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶ステップにより記憶した文字列、表示属性、識別子を参照して対応する文字列に置き換え、かつ対応する表示属性を付加する文書データ復元ステップと、
    上記文書データ復元ステップによって識別子を上記対応する語句に置き換え、さらに表示属性を付加した文書データを表示するステップとを有することを特徴とする文書処理装置。
  10. 所定の語句について、文字列、表示属性、識別子を記憶する語句情報記憶ステップと、
    上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶ステップにより記憶した文字列、表示属性、識別子を参照して対応する文字列に置き換え、かつ対応する表示属性を付加する文書データ復元ステップと、
    上記文書データ復元ステップによって識別子を上記対応する語句に置き換え、さらに表示属性を付加した文書データを表示するステップとをコンピュータに実行させるために用いられることを特徴とする文書処理用コンピュータプログラム。
JP2002169130A 2002-06-10 2002-06-10 文書処理装置および方法 Expired - Fee Related JP3966086B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002169130A JP3966086B2 (ja) 2002-06-10 2002-06-10 文書処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002169130A JP3966086B2 (ja) 2002-06-10 2002-06-10 文書処理装置および方法

Publications (2)

Publication Number Publication Date
JP2004013737A true JP2004013737A (ja) 2004-01-15
JP3966086B2 JP3966086B2 (ja) 2007-08-29

Family

ID=30435836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002169130A Expired - Fee Related JP3966086B2 (ja) 2002-06-10 2002-06-10 文書処理装置および方法

Country Status (1)

Country Link
JP (1) JP3966086B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006046664A1 (ja) * 2004-10-27 2006-05-04 Justsystems Corporation 時間共有管理装置、文書作成装置、文書閲覧装置、時間共有管理方法、文書作成方法および文書閲覧方法
JP2007087016A (ja) * 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 表示装置及び文字列データベース再定義方法
US7228019B2 (en) 2003-11-25 2007-06-05 Nec Corporation Multi-channel Mach-Zehnder interferometer type optical circuits for restraining heat interference of adjacent channel
JP2007293452A (ja) * 2006-04-21 2007-11-08 Canon Inc 文書処理装置及びその制御方法、プログラム、記憶媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7228019B2 (en) 2003-11-25 2007-06-05 Nec Corporation Multi-channel Mach-Zehnder interferometer type optical circuits for restraining heat interference of adjacent channel
WO2006046664A1 (ja) * 2004-10-27 2006-05-04 Justsystems Corporation 時間共有管理装置、文書作成装置、文書閲覧装置、時間共有管理方法、文書作成方法および文書閲覧方法
JPWO2006046664A1 (ja) * 2004-10-27 2008-05-22 株式会社ジャストシステム 時間共有管理装置、文書作成装置、文書閲覧装置、時間共有管理方法、文書作成方法および文書閲覧方法
US7730105B2 (en) 2004-10-27 2010-06-01 Justsystems Corporation Time sharing managing apparatus, document creating apparatus, document reading apparatus, time sharing managing method, document creating method, and document reading method
JP2007087016A (ja) * 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 表示装置及び文字列データベース再定義方法
JP4735155B2 (ja) * 2005-09-21 2011-07-27 富士ゼロックス株式会社 表示装置及び文字列データベース再定義方法
JP2007293452A (ja) * 2006-04-21 2007-11-08 Canon Inc 文書処理装置及びその制御方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP3966086B2 (ja) 2007-08-29

Similar Documents

Publication Publication Date Title
US7958444B2 (en) Visualizing document annotations in the context of the source document
JP3220560B2 (ja) 機械翻訳装置
US20170235841A1 (en) Enterprise search method and system
JP2783558B2 (ja) 要約生成方法および要約生成装置
US7478092B2 (en) Key term extraction
US8074171B2 (en) System and method to provide warnings associated with natural language searches to determine intended actions and accidental omissions
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
Hishiki et al. Developing NLP tools for genome informatics: An information extraction perspective
JP3966086B2 (ja) 文書処理装置および方法
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JPH02112068A (ja) テキスト簡略表示方式
TW482962B (en) Method of automatic extracting for key features in digital document
JP4635585B2 (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JPH08115330A (ja) 類似文書検索方法および装置
Vale et al. Building a large dictionary of abbreviations for named entity recognition in Portuguese historical corpora
Petrovčič et al. The New Chinese Corpus of Literary Texts Litchi
JP2004070376A (ja) 文書表示装置および方法
Cordova et al. Processing Quechua and Guarani historical texts query expansion at character and word level for information retrieval
JP3954520B2 (ja) 翻訳支援システム
WO2001024053A2 (en) System and method for automatic context creation for electronic documents
JP2009230705A (ja) テンプレート作成装置、文書データ作成装置、その作成方法及びプログラム
Korkiakangas A digital diplomatic edition of the 10th-century charters of Lucca for Latin corpus linguistics
Ide et al. Background and context for the development of a Corpus Encoding Standard

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070521

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees