JP3966086B2

JP3966086B2 - 文書処理装置および方法

Info

Publication number: JP3966086B2
Application number: JP2002169130A
Authority: JP
Inventors: 明男山下; 猛志永峯; 克典芳地
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2002-06-10
Filing date: 2002-06-10
Publication date: 2007-08-29
Anticipated expiration: 2022-06-10
Also published as: JP2004013737A

Description

【０００１】
【発明の属する技術分野】
この発明は、文書処理技術に関し、とくに所定の語句を他の文書部分と異なる表示属性で表示する技術に関する。
【０００２】
【従来の技術】
文書（一まとまりの自然言語データ）に対して自然言語処理、たとえば固有名詞等の所定のカテゴリに属する語句や重要語句の抽出や検索を行うことがある。このような自然言語処理の対象は、プレーンテキストのファイルであり、解析結果の単語の位置は、プレーンテキストにおける、境界位置であったり、開始位置と長さで表される。例えば、特開平６−２８３９３号公報（自然言語解析の形態素解析処理方式）には、解析結果（形態素データ）における形態素の位置は、文章での位置と形態素長さとしている。
【０００３】
ＨＴＭＬ、ＸＭＬなどのタグ付き文書の場合には、タグを除去し、除去した結果のプレーンテキストを対象に処理していた。ＭｉｃｒｏｓｏｆｔＷｏｒｄ（商標）などのバイナリ文書の場合には、内容テキストを抽出し、プレーンテキストやＨＴＭＬテキストにして処理していた。
【０００４】
ところで、解析結果に基づいて、入力テキストにハイライト表示を行う場合、位置情報を基に入力テキストの整形処理が必要であった。例えば、ＨＴＭＬ形式で表示する場合、該当単語の前後に色を変えるタグを入れることになる。
【０００５】
しかしながら、入力データのレイアウトが変わるような場合、例えば、入力ファイルを所定の条件のもとで変換して表示する場合や、動的に生成されるＷＥＢページのような場合、変換・生成されたページに抽出データを再構築するという無駄の処理が発生していた。
【０００６】
既存の抽出データの位置情報をレイアウトの変更箇所を検出して補正する方策をとった場合には、補正処理が複雑になる。また、動的に生成されるＷＥＢページに対しては、生成後のＷＥＢページに対して再度解析を行わざるをえず、応答までに余分な時間がかかる。
【０００７】
【発明が解決する課題】
この発明は、以上の事情を考慮してなされたものであり、文書をレイアウト変更等して表示する場合でも、抽出した語句の位置情報を再取得したり、補正したりする手間をなくすようにすることをを目的としている。
【０００８】
【課題を解決するための手段】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
【０００９】
この発明では、例えば、入力データから抽出された重要語句をＩＤと関連づけて管理し、入力データの中の抽出語句にＩＤを関連づけてもたせておく。レイアウトの変更のような整形では、ＩＤ付き入力データを整形し、整形後の出力ファイルに対してハイライト表示をする際に、ＩＤから抽出語句のカテゴリを取得して、指定された表示形態でハイライト表示するようにする。
【００１０】
動的に生成されるＷＥＢページの場合には、生成前の元データ内の重要語句をＩＤに置き換えて保存しておき、ページの生成時点でＩＤから重要語句やカテゴリを取得して、指定された表示形態のＷＥＢページを生成するようにする。
【００１１】
この発明をさらに説明する。
【００１２】
すなわち、この発明の一側面によれば、上述の目的を達成するために、文書処理装置に：所定の語句について、文字列、カテゴリ、識別子を記憶する語句情報記憶手段と；上記識別子を含む文書データ中の当該識別子を、上記語句情報記憶手段を参照して対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する文書データ復元手段と；上記文書データ復元手段によって識別子を上記対応する語句に置き換え、さらにカテゴリの表示属性を付加した文書データを表示する手段とを設けている。
【００１３】
この構成においては、識別子自体がカテゴリに関連づけられているので、レイアウト変更や動的な文書作成の場合でも、そのカテゴリの情報から語句の表示属性を簡易に取得できる。
【００１４】
語句にカテゴリを介して表示属性に関連づけるのではなく、語句に表示属性を直接に関連づけるようにしてもよい。
【００１５】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【００１６】
この発明の上述の側面およびこの発明の他の側面は特許請求の範囲に記載され、以下実施例を用いて詳細に説明される。
【００１７】
【発明の実施の形態】
以下、この発明の実施例について説明する。
【００１８】
［第１の実施例］
図１は、所定の語句を抽出する言語処理を行ってその処理結果を表示する文書処理装置にこの発明を適用した第１の実施例を示しており、この図において、文書処理装置は、入力ファイル格納部１１、固有表現抽出部１２、抽出結果格納部１３、ＩＤ付きファイル格納部１４、表示データ生成部１５および表示部１６等を含んで構成されている。なお、固有表現抽出部１２の「固有表現」は、人名、組織名等の固有名詞や、日時、価格（通貨）等の重要語句を指し示すものとする。重要語句は自然言語処理の目的等により変化する。
【００１９】
入力ファイル格納部１１は、処理対象の文書データを記憶している。この例では、文書データはたとえば記事データなどであり、ＨＴＭＬファイルのセットである。固有表現抽出部１２は、文書データから人名、企業名、日時、場所などの固有表現を抽出する。抽出結果格納部１３は、固有表現抽出部１２が抽出した情報を格納する。個々の抽出結果（エンティティとも呼ぶ）にはトークンＩＤが付され、このトークンＩＤを基に抽出結果を参照できるようになっている。また、先の固有表現抽出部１２は、固有表現の抽出に合わせて、文書データ中の固有表現をトークンＩＤに置き換えてＩＤ付きファイルに変換する。ＩＤ付きファイル格納部１４はこのＩＤ付きファイルを記憶する。
【００２０】
表示データ生成部１５は、抽出結果格納部１３を参照して、ＩＤ付きファイル格納部１４のＩＤ付きファイル中のトークンＩＤを、色分けなどの表示属性データを伴う、語句のデータに変換して表示データを生成する。表示部１６は、表示データ生成部１５が生成した表示データを表示する。
【００２１】
この実施例の動作を具体例を挙げ、さらに従来の手法と比較しながら説明する。この説明では、記事データベースからＸＭＬ文書を作成し、ブラウザで表示する場合を説明する。
【００２２】
処理対象の記事データベースのレコードは図２に示すようなものである。
【００２３】
記事データベースのレコードは図３に示すようなＸＭＬファイルに変換されて入力ファイル格納部１１に記憶される。ＸＭＬファイルをブラウザで表示することにより記事レコードを閲覧することができる。図４は、ブラウザで表示した例を示す。
【００２４】
さて、従来の手法では、固有表現抽出部１２がＸＭＬファイルから抽出した抽出結果を図５に示すようなＸＭＬファイルで保持する。この図に示されるように、抽出結果は、エンティティの集合になっていて、各エンティティは、固有表現の文字列（ｎａｍｅ）、そのカテゴリ（ｃａｔｅｇｏｒｙ）、先頭からカウントした開始位置（ｏｆｆｓｅｔ）、語句の長さ（ｌｅｎｇｔｈ）等の情報から構成される。
【００２５】
エンティティの先頭からカウントした開始位置（ｏｆｆｓｅｔ）は、ＸＭＬファイルの先頭からのバイト数であり、ＸＭＬファイルの内容に依存する。所定の条件で内容を変更したり（例えば要約にする）、解析対象のレコードに他の情報を付加したりして動的にＷＥＢページを構成する場合には、ブラウザで表示されるＸＭＬファイルの内容も変更されるので、エンティティの先頭からカウントした開始位置も変わってしまい、計算し直す必要がある。
【００２６】
固有表現抽出結果を基に入力ファイルに色分けのタグを挿入し表示データとする。
【００２７】
図６は、色分けタグによりカテゴリごとに色表示を行った場合のブラウザによる表示例を示す。
【００２８】
つぎに、この実施例の固有表現抽出結果の例を説明する。
【００２９】
この実施例の固有表現抽出結果は、従来のような、先頭からカウントした開始位置（ｏｆｆｓｅｔ）、語句の長さ（ｌｅｎｇｔｈ）のような位置情報を用いるのではなく、図７に示すように、トークンＩＤを用いて表される。図７はＸＭＬで表記されたものである。これを表形式で表すと図８に示すようになる。
【００３０】
またＩＤ付きファイルは図９に示すようになる。
【００３１】
表示データ生成部１５は、ＸＳＬＴを用いて、ＩＤ付きファイル格納部１４のＩＤ付きファイルと抽出結果格納部１３の抽出結果とに基づいて、トークンＩＤを、色分けタグを伴う固有表現語句に変換して表示用のＨＴＭＬファイルを生成して表示部１６により表示する。例えば図６に示すような表示結果を得る。ＸＳＬＴで用いるＸＳＬファイルを変更して、例えば、目的のＸＴＭＬファイルを日付とタイトルからなる表形式に表示形式を変更した場合でも、トークンＩＤは変わらないので、従前のような固有表現の再抽出を行う必要がない。
【００３２】
ここで、ＩＤ付きファイル生成の具体的な動作および表示データ生成の具体的な動作について説明しておく。
【００３３】
ＩＤ付きファイルはつぎのように生成される。
【表１】

【００３４】
表示データ生成の具体的な動作は次のようなものである。
【００３５】
【表２】

【００３６】
［第２の実施例］
つぎにこの発明の第２の実施例について図１０を参照して説明する。この実施例では第１の実施例の入力ファイル格納部１１およびＩＤ付きファイル格納部１４に代えて文書データ格納部２１を設けている。この実施例では、文書データ格納部２１に当初は入力ファイルを格納し、この入力ファイルに対して固有表現抽出部１２により固有表現抽出を行い、この過程で固有表現をトークンＩＤに置き換えていく。最終的な文書データ格納部２１の内容は図１１に示すようになる。この例でも第１の実施例と同様に固有表現の再抽出の問題が生じない。
【００３７】
図１０において図１と対応する箇所には対応する符号を付して詳細な説明を省略した。
【００３８】
なお、図１０において、文書データ格納部２１に、トークンＩＤ付きの文書データ（例えば図１１のようなもの）および固有表現抽出結果を外部から、あるいは他のアプリケーションのプロセスから受け取るようにしてもよい。この場合、固有表現抽出部１２は必須でなくなる。
【００３９】
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々変更が可能である。例えば、上述の例では、固有表現を抽出する例を説明したが、キーワード検索を行って、文書または文書の該当部分を取り出し、その中でキーワードを特定する場合にもこの発明を適用できる。キーワードの種類や何番目のキーワードかによって表示属性を変えるようにしてもよい。
【００４０】
また、色分け等の表示属性を付加しなくてもよい。例えば、トークンＩＤに対応する文字列を修正するようにしてもよい。
【００４１】
【発明の効果】
以上説明したように、この発明によれば、解析結果の語句を識別子に関連づけるようにしたので、レイアウト変更等を行っても解析結果の内容が維持され、再度の解析等の作業がなくすことができる。
【図面の簡単な説明】
【図１】この発明の第１の実施例の構成を示すブロック図である。
【図２】上述実施例において扱う入力例を説明する図である。
【図３】上述実施例の入力ファイル格納部のＸＭＬファイルの例を説明する図である。
【図４】上述入力例の表示例を説明する図である。
【図５】従来の固有表現抽出結果を説明する図である。
【図６】固有表現をハイライトして示す表示例を説明する図である。
【図７】上述実施例の固有表現抽出結果を説明する図である。
【図８】上述実施例の抽出結果格納部を説明する図である。
【図９】上述実施例のＩＤ付きファイル格納部を説明する図である。
【図１０】この発明の第２の実施例の構成を示すブロック図である。
【図１１】上述の実施例の文書データ格納部の格納データを説明する図である。
【符号の説明】
１１入力ファイル格納部
１２固有表現抽出部
１３抽出結果格納部
１４ＩＤ付きファイル格納部
１５表示データ生成部
１６表示部
２１文書データ格納部

Claims

文書データ中の所定の語句を抽出する語句抽出手段と、
上記所定の語句の各々について、文字列、カテゴリ、識別子を記憶する語句情報記憶手段と、
語句のカテゴリごとに対応する表示属性を記憶する表示属性記憶手段と、
上記文書中の上記所定の語句の各々をそれぞれ対応する識別子に置き換えた識別子付き文書データを保持する識別子付き文書データ記憶手段と、
上記識別子付き文書データ記憶手段に記憶されている識別子付き文書データから生成された、上記識別子を含む文書データについて、当該識別子の各々を、上記語句情報記憶手段および上記表示属性記憶手段を参照してそれぞれ対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加する表示データ生成手段と、
上記表示データ生成手段によって、上記識別子の各々を上記対応する語句にそれぞれ置き換え、さらにカテゴリの表示属性を付加した文書データを表示する手段とを有することを特徴とする文書処理装置。
上記所定の語句は検索用のキーワードである請求項１記載の文書処理装置。
上記所定の語句は、カテゴリが固有名詞、日時および価格のいずれかである語句である請求項１または２記載の文書処理装置。
語句抽出手段が、文書データ中の所定の語句を抽出するステップと、
語句情報記憶手段が、上記所定の語句の各々について、文字列、カテゴリ、識別子を記憶するステップと、
表示属性記憶手段が、語句のカテゴリごとに対応する表示属性を記憶するステップと、
識別子付き文書データ記憶手段が、上記文書中の上記所定の語句の各々をそれぞれ対応する識別子に置き換えた識別子付き文書データを保持するステップと、
表示データ生成手段が、上記識別子付き文書データ記憶手段に記憶されている識別子付き文書データから生成された、上記識別子を含む文書データについて、当該識別子の各々を、上記語句情報記憶手段および上記表示属性記憶手段を参照してそれぞれ対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加するステップと、
表示手段が、上記表示データ生成手段によって、上記識別子の各々を上記対応する語句にそれぞれ置き換え、さらにカテゴリの表示属性を付加した文書データを表示するステップとを有することを特徴とする文書処理方法。
語句抽出手段が、文書データ中の所定の語句を抽出するステップと、
語句情報記憶手段が、上記所定の語句の各々について、文字列、カテゴリ、識別子を記憶するステップと、
表示属性記憶手段が、語句のカテゴリごとに対応する表示属性を記憶するステップと、
識別子付き文書データ記憶手段が、上記文書中の上記所定の語句の各々をそれぞれ対応する識別子に置き換えた識別子付き文書データを保持するステップと、
表示データ生成手段が、上記識別子付き文書データ記憶手段に記憶されている識別子付き文書データから生成された、上記識別子を含む文書データについて、当該識別子の各々を、上記語句情報記憶手段および上記表示属性記憶手段を参照してそれぞれ対応する文字列に置き換え、かつ対応するカテゴリの表示属性を付加するステップと、
表示手段が、上記表示データ生成手段によって、上記識別子の各々を上記対応する語句にそれぞれ置き換え、さらにカテゴリの表示属性を付加した文書データを表示するステップとをコンピュータに実行させるための文書処理用コンピュータプログラム。