JP2011227876A

JP2011227876A - 校正支援装置及び校正支援プログラム

Info

Publication number: JP2011227876A
Application number: JP2011061796A
Authority: JP
Inventors: Seiji Okura; 清司大倉; Akira Shioda; 明潮田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-03-31
Filing date: 2011-03-18
Publication date: 2011-11-10
Anticipated expiration: 2031-03-18
Also published as: JP5673265B2

Abstract

【課題】文書に対してなされた校正における校正規則を、校正前文書及び校正後文書から自動抽出できるようにする。
【解決手段】文書読出部１５が校正前文書７及び校正後文書８を読み出し、文書解析部１６がこれを解析して要素に分割し、各要素の共起関係を抽出する。頻度算出部１７は、校正前文書において共起関係が出現する頻度及び校正後文書において共起関係が出現する頻度を夫々算出する。さらに、差分算出部１９が、校正後の共起頻度から校正前の共起頻度を差し引いた差分を算出し、共起関係に含まれる要素を次元軸とし差分を成分とする差分ベクトルを生成する。また、校正規則作成部２０が、差分ベクトルが生成された要素について差分ベクトルを反転させ、当該反転させたベクトルと他の要素の差分ベクトルとが一致又は近似するときに、当該要素と当該他の要素とで校正規則を作成する。そして、表示処理部２１及び辞書登録部２２が当該校正規則を出力する。
【選択図】図１

Description

本発明は、文書の校正作業を支援する技術に関する。

文書中の誤りや不適切な表現等を適切な内容に修正する校正作業を支援する技術が、一般的に提供されている。かかる技術の一例として、ユーザが行った校正が所定の誤り検出規則に適している場合に、当該校正内容を、校正前後の語を対応づけた辞書に自動登録する技術がある。

また、このように特定の語を別の語に変換するための辞書を自動登録する技術としては、ナビゲーション用音声認識システムにおいて、ユーザによる言い換えが頻繁になされる語彙を辞書に登録する技術がある。この技術では、ユーザにより語彙の言い換えがなされたときに、その言い換え内容を示す情報がログとして蓄積される。そして、かかるログに蓄積された情報から、言い換えの頻度が多い語彙が抽出され、辞書に登録される。

さらには、特定の語を別の語に変換する作業を支援する技術として、ユーザにより翻訳対象として入力された語の訳語を推定する技術がある。この技術では、既に行われた翻訳につき、原文と訳文とが一対一で対応付けられた対訳文が蓄積されており、入力された翻訳対象となる語を含む翻訳前の文に対応する翻訳後の文が全て抽出され、形態素解析及びチャンク解析される。そして、解析結果におけるｎ−ｇｒａｍ単語列の出現回数に基づき、ｎ−ｇｒａｍ単語列に含まれる単語から訳語が推定される。

特開平９−１６５９７号公報特開２００７−２８０１２２号公報特開２００７−２１３００５号公報

ここで、すでに校正の対象となった文書においてなされた校正内容は、例えば文書作成等を行うユーザにとって、有益な情報となり得る。しかし、当該文書における校正箇所が不明である場合、ユーザが自ら文書から校正箇所を探し出して校正規則を抽出するには、時間や労力を要する。

一方、上述の従来技術のうち、ユーザが行った校正内容を辞書に自動登録する技術や言い換えが頻繁になされる語彙を辞書に登録する技術等は、校正内容や言い換えがなされた内容が予め特定されていることを前提として処理を行う技術である。また、翻訳対象として入力された語の訳語を推定する技術においても、まず翻訳対象とする語がユーザにより入力されて特定されることが前提である。さらに、当該技術では、原文と訳文とが一対一で対応付けられていることが前提である。このため、例えば、校正によって章立てや文の入れ替えなどがなされ、校正前と校正後の文が一対一で対応付けられない文書の場合には、例えば文の位置関係の対応付け等を行わなければ、当該技術を適用することは困難である。

したがって、このような従来技術を用いたとしても、文書における校正箇所自体がそもそも特定されていないような場合、その文書に対してなされた校正における校正規則を文
書から容易に抽出することができなかった。

以上のような問題点に鑑み、本技術は、すでに校正対象となった文書における校正規則を、文書から自動抽出できるようにすることを目的とする。

本技術は、校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する。そして、出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する。さらに、差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定する。また、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する。

本技術によれば、すでに校正対象となった文書における校正規則が、文書から自動抽出される。

校正支援装置の全体構成の一例の説明図である。校正支援処理の概要の一例を示すフローチャートである。文書解析処理の一例を示すフローチャートである。頻度算出処理の一例を示すフローチャート（第１実施例）である。対象特定処理の一例を示すフローチャートである。差分算出処理の一例を示すフローチャート（第１実施例）である。校正規則抽出処理の一例を示すフローチャートである。表示処理の一例を示すフローチャートである。辞書登録処理の一例を示すフローチャートである。要素記憶部のデータの一例を示す説明図である。共起記憶部のデータの一例を示す説明図である。頻度記憶部のデータの一例を示す説明図（第１実施例）である。頻度記憶部のデータの一例を示す説明図（第１実施例）である。対象記憶部のデータの一例を示す説明図である。差分記憶部のデータの一例を示す説明図（第１実施例）である。差分記憶部のデータの一例を示す説明図（第１実施例）である。差分ベクトルを図式化した例を示す説明図である。校正規則記憶部のデータの一例を示す説明図である。校正辞書データベースのデータの一例を示す説明図である。文書解析処理の一例を示すフローチャート（第２実施例）である。頻度記憶部のデータの一例を示す説明図（第２実施例）である。差分記憶部のデータの一例を示す説明図（第２実施例）である。校正規則抽出処理の一例を示すフローチャート（第３実施例）である。ベクトル調整処理の一例を示すフローチャートである。校正前文書の一例を示す説明図である。校正後文書の一例を示す説明図である。校正前文書及び校正後文書における要素の出現頻度の一例を示す説明図である。差分ベクトルの成分の一例を示す説明図である。校正支援プログラムを実行するコンピュータの構成の一例の説明図である。

［第１実施例］
以下、第１実施例に係る校正支援装置について説明する。この校正支援装置は、文書校正がなされる前の状態である校正前文書、及び、当該校正前文書に対して文書校正がなされた後の状態である校正後文書を入力とする。そして、校正支援装置は、校正前文書及び校正後文書に基づき、校正前の要素と校正後の要素との組合せを抽出して校正規則を抽出し、抽出した校正規則を出力する。

図１は、校正支援装置の一例の全体構成図である。校正支援装置は、入力部１、文書記憶部２、処理情報記憶部３、制御部４、表示部５及び校正辞書記憶部６を有する。
入力部１は、各種の入力を受け付ける装置であり、例えば、キーボード、マウス、タッチパネル、マイク等である。ユーザは、入力部１を介して、校正前文書７及び校正後文書８を指定し、校正規則を抽出する指示を入力することができる。

文書記憶部２は、校正前文書７及び校正後文書８の電子データ（例えばテキストファイル等）が夫々格納された記憶手段である。
処理情報記憶部３は、制御部４における処理で用いる情報が格納される記憶手段であり、要素記憶部９、共起記憶部１０、頻度記憶部１１、対象記憶部１２、差分記憶部１３及び校正規則記憶部１４を有する。なお、要素記憶部９、共起記憶部１０、頻度記憶部１１、対象記憶部１２、差分記憶部１３及び校正規則記憶部１４に格納される具体的なデータ構造等の例については、後述の具体例を用いた説明において示す。

制御部４は、入力部１、文書記憶部２、処理情報記憶部３、表示部５及び校正辞書記憶部６と協働して校正支援処理を行う制御機構である。制御部４は、校正前文書７及び校正後文書８を入力とし、校正前文書７及び校正後文書８から校正規則を抽出して、表示部５及び校正辞書記憶部６に出力する処理を行う。制御部４は、文書読出部１５、文書解析部１６、頻度算出部１７、対象特定部１８、差分算出部１９、校正規則抽出部２０、表示処理部２１及び辞書登録部２２を有する。

文書読出部１５は、入力部１が受け付けたユーザによる操作指示に従い、文書記憶部２に格納された校正前文書７及び校正後文書８を夫々読み出す。
文書解析部１６は、文書読出部１５により読み出された校正前文書７及び校正後文書８をそれぞれ解析し、所定の単位で区切られた要素に分割する。所定の単位とは、例えば、文字単位、単語単位、句単位、文単位等である。そして、文書解析部１６は、文書が分割された結果としての各要素を、要素記憶部９に格納する。

なお、文書の解析を行う具体的な手法としては、例えば、形態素解析等が挙げられる。このような解析手法は一般に用いられているものであり、例えば、特開昭６１−０４０６７１号公報に記載の単語分割処理方法や、特開平２−２３０３７０号公報に記載の形態素解析装置等で実現することができる。

また、文書解析部１６は、校正前文書７及び校正後文書８の夫々における各要素の共起関係を抽出し、共起記憶部１０に格納する。なお、共起関係とは、文書中に複数の要素が共に出現する（同時に用いられる）関係をいう。ここでは、共起関係として、各要素の前に連続して出現する要素を含むｎ−ｇｒａｍ及び各要素の後に連続して出現する要素を含
むｎ−ｇｒａｍを夫々抽出する。「要素の前に連続して出現する要素を含むｎ−ｇｒａｍ」とは、「要素」及び「当該要素の前に連続して出現する１個以上（ｎ−１個）の要素が出現順に並べられた集合」を含む、合計ｎ個の要素の組合せである。同様に、「要素の後に連続して出現する要素を含むｎ−ｇｒａｍ」とは、「要素」及び「当該要素の後に連続して出現する１個以上（ｎ−１個）の要素が出現順に並べられた集合」を含む、合計ｎ個の要素の組合せである。ｎは２以上の整数であればいくつであってもよい。なお、以下の説明では、「（要素の）前に連続して出現する要素を含むｎ−ｇｒａｍ」を「（要素の）前ｎ−ｇｒａｍ」と略記し、「（要素の）後に連続して出現する要素を含むｎ−ｇｒａｍ」を「（要素の）後ｎ−ｇｒａｍ」と略記する。

頻度算出部１７は、要素記憶部９に格納された各要素につき、共起記憶部１０に格納された共起関係に基づいて、校正前文書７及び校正後文書８の夫々における共起関係の出現頻度（出現回数）を算出する。具体的には、頻度算出部１７は、校正前文書７及び校正後文書８の夫々について、要素記憶部９に含まれる各要素の前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度を夫々カウントする。そして、頻度算出部１７は、カウントした出現頻度を、頻度記憶部１１に格納する。

対象特定部１８は、校正前文書７における共起関係を構成する要素を次元軸とし、当該共起関係の出現頻度を成分とした校正前頻度ベクトルを生成する。さらに、対象特定部１８は、校正後文書８における共起関係を構成する要素を次元軸とし、当該共起関係の出現頻度を成分とした校正後頻度ベクトルを生成する。具体的には、対象特定部１８は、校正前文書７につき、各要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍを構成する要素を次元軸とし、頻度記憶部１１に格納された前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度を成分とした校正前頻度ベクトルを作成する。同様に、対象特定部１８は、校正後文書８につき、各要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍを構成する要素を次元軸とし、頻度記憶部１１に格納された前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度を成分とした校正後頻度ベクトルを作成する。そして、対象特定部１８は、各要素につき、校正前頻度ベクトル及び校正後頻度ベクトルの近似値を算出し、両頻度ベクトルが一致及び近似しない要素のみを校正対象の要素として抽出して、対象記憶部１２に格納する。なお、このように頻度ベクトルの近似値に基づいて校正対象であるか否かを判断するのは、校正対象でない要素の場合、原則として、その要素を含むｎ−ｇｒａｍの出現頻度は校正前と校正後とで殆ど変化しない（即ち、校正前頻度ベクトル及び校正後頻度ベクトルが一致若しくは近似する）ということに着目したものである。そして、対象特定部１８は、後続の各処理における処理対象を、文書に含まれる全要素のうち、校正規則の抽出対象となり得る要素のみに絞り込む役割を果たす。

差分算出部１９は、対象記憶部１２に含まれる各要素について、校正後文書８における共起関係の出現頻度から校正前文書７における共起関係の出現頻度を差し引いた差分を算出し、当該共起関係を構成する要素を次元軸とし差分を成分とする差分ベクトルを生成する。具体的には、差分算出部１９は、対象記憶部１２に含まれる各要素について、前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度の、校正前文書７及び校正後文書８における差分を夫々算出する。この差分は、各要素の前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度が、校正前文書７と校正後文書８とでどのように変化したかを示すものである。そして、頻度算出部１７は、各要素の前ｎ−ｇｒａｍの出現頻度の差分及び後ｎ−ｇｒａｍの出現頻度の差分を、差分記憶部１３に格納する。また、差分算出部１９は、各要素の前ｎ−ｇｒａｍを構成する要素及び後ｎ−ｇｒａｍを構成する要素を次元軸とし、前ｎ−ｇｒａｍの出現頻度の差分及び後ｎ−ｇｒａｍの出現頻度の差分を成分とした差分ベクトルを生成する。

校正規則抽出部２０は、差分を算出した要素間で、要素夫々の差分が一定の関係にある
要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する。具体的には、校正規則抽出部２０は、各要素の差分ベクトルを反転させ、当該反転させたベクトルと、他の要素の差分ベクトルと、の近似値を算出する。ここで、校正規則抽出部２０がこのように各要素の差分ベクトルを反転させて他の要素の差分ベクトルとの近似値を算出するのは、次の理由による。即ち、ある要素が別の要素に校正された場合、校正前後において、校正前の要素を含んだｎ−ｇｒａｍの出現頻度の差分（減少量）と、校正後の要素を含んだｎ−ｇｒａｍの出現頻度の差分（増加量）と、は対応関係にある可能性が高い。このとき、校正前の要素の差分ベクトルと校正後の要素の差分ベクトルとは、ベクトルの大きさが一致若しくは近似し、方向が反対方向となる。このため、いずれか一方の差分ベクトルを反転させることにより、両ベクトルは方向及び大きさともに一致若しくは近似するベクトルとなる。そして、このようにある要素の差分ベクトルを反転させたベクトルと他の要素の差分ベクトルとが一致若しくは近似する場合には、両要素が校正前及び校正後の校正規則をなす組合せである可能性が高いということになる。

そして、校正規則抽出部２０は、ベクトルが一致若しくは近似する２つの要素を１つの校正組合せとする。さらに、校正規則抽出部２０は、校正組合せとした２つの要素のうち、生成された差分ベクトルが正方向を向いている要素を校正後の要素とし、差分ベクトルが負方向を向いている要素を校正前の要素として、校正規則を抽出する。換言すれば、校正規則抽出部２０は、校正組合せとした２つの要素のうち、校正後のほうが校正前よりもｎ−ｇｒａｍの出現頻度が増加している要素を校正後の要素とし、校正後のほうが校正前よりもｎ−ｇｒａｍの出現頻度が減少している要素を校正前の要素として、校正規則を抽出する。さらに、校正規則抽出部２０は、抽出した校正規則を校正規則記憶部１４に格納する。

なお、対象特定部１８や差分算出部１９で行っているベクトル同士の近似値の算出には、ベクトル空間モデルにおけるベクトル間の近似値の算出方式を用いることができる。ベクトル空間モデルとは、検索対象文書と検索要求それぞれを、キーワードを次元軸とし、キーワードの出現頻度を成分としたベクトルとみなし、そのベクトル間の距離により、類似度（近似値）を算出する方式である。ベクトル空間モデルでは、文書の要素をベクトルにより表現し、例えば、近似値を２つのベクトルのcosineとする。この場合、近似値が１であればベクトルが一致していることを意味し、近似値が低いほど類似度が低いことを意味する。かかる近似値の算出方法において、ベクトル同士が「近似している」と判定するにあたり妥当な基準値としては、例えば、近似値が０．８以上の場合、とすることができる。ベクトル空間モデルにおける近似値の算出方式については、例えば「Salton, G.著 "Automatic Text Processing: the transformation, analysis, and retrieval of information by computer"、1989年、Addison-Wesley Publishing 発行」等に記載されている。

表示処理部２１は、校正規則抽出部２０が抽出した校正規則を、表示部５に表示させる。
辞書登録部２２は、校正規則抽出部２０が抽出した校正規則を、校正辞書記憶部６の校正辞書データベース２３に登録する。

表示部５は、制御部４による処理の結果として出力される校正規則を表示する装置であり、例えば、ディスプレイ等である。
校正辞書記憶部６は、制御部４による処理の結果として出力される校正規則を登録する校正辞書データベース２３が格納される記憶手段である。

次に、制御部４において行われる校正支援処理を、図２〜図９に示すフローチャートを用いて説明する。
図２は、校正支援処理の概要を示すフローチャートである。当該校正支援処理は、入力部１が、ユーザによる操作指示を受け付けたときに実行される。

ステップ１では、文書読出部１５が、文書記憶部２から、ユーザにより指定された校正前文書７及び校正後文書８を読み出す。ステップ２では、文書解析部１６が、文書解析処理を実行し、ステップ３では、校正対象推定部が、校正対象推定処理を実行する。ステップ４では、校正規則抽出部２０が、校正規則抽出処理を実行する。ステップ５では、表示処理部２１が、表示処理を実行し、ステップ６では、辞書登録部２２が、辞書登録処理を実行する。

図３は、文書解析部１６が実行する文書解析処理を示すフローチャートである。
以下のステップ１１〜１３は、校正前文書７及び校正後文書８の夫々について行われる処理（ループ処理Ａ）である。

ステップ１１では、文書解析部１６が、文書読出部１５により読み出された文書（以下、フローチャートのループ処理の説明において単に「文書」という場合には、処理対象となる校正前文書７及び校正後文書８のいずれか一方を示す。）の夫々について解析を行い、文書を所定の単位で区切られた要素に分割する。

ステップ１２では、文書解析部１６が、文書の解析により文書が分割された結果としての各要素を、重複を排除しつつ要素記憶部９に格納する。
ステップ１３では、文書解析部１６が、文書に含まれるｎ−ｇｒａｍを抽出し、共起記憶部１０に格納する。

図４は、頻度算出部１７が実行する頻度算出処理を説明するフローチャートである。
以下のステップ２１〜ステップ２３は、校正前文書７及び校正後文書８の夫々を処理対象として行われる処理（ループ処理Ｂ）であり、さらに、要素記憶部９に格納された要素の夫々を処理対象として行われる処理（ループ処理Ｃ）である。

ステップ２１では、頻度算出部１７が、共起記憶部１０から、文書における各要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍを夫々抽出する。
ステップ２２では、頻度算出部１７が、抽出した各要素の前ｎ−ｇｒａｍが文書に出現する出現頻度及び後ｎ−ｇｒａｍが文書に出現する出現頻度を、夫々カウントする。そして、頻度算出部１７は、各ｎ−ｇｒａｍに含まれる要素及びカウントした頻度を、頻度記憶部１１に格納する。

図５は、対象特定部１８が実行する対象特定処理を説明するフローチャートである。
以下のステップ３１は、校正前文書７及び校正後文書８の夫々を処理対象として行われる処理（ループ処理Ｄ）であり、さらに、要素記憶部９に格納された要素の夫々を処理対象として行われる処理（ループ処理Ｅ）である。

ステップ３１では、対象特定部１８が、要素の前ｎ−ｇｒａｍを構成する要素及び後ｎ−ｇｒａｍを構成する要素を次元軸とし、頻度記憶部１１に格納された前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度を成分とした頻度ベクトルを生成する。ここでの「要素の前ｎ−ｇｒａｍを構成する要素」は、前ｎ−ｇｒａｍに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の前に連続して出現する要素（群）を指す。同様に、「要素の後ｎ−ｇｒａｍを構成する要素」は、後ｎ−ｇｒａｍに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の後に連続して出現する要
素（群）を指す。この頻度ベクトルを表すデータは、頻度記憶部１１に格納された、前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度の両方をベクトル成分としたデータである。

以下のステップ３２〜ステップ３４は、要素記憶部９に格納された要素の夫々について行われる処理（ループ処理Ｆ）である。
ステップ３２では、対象特定部１８が、上記ステップ３１で生成された頻度ベクトルにつき、ベクトル空間モデルに基づいて、校正前文書７における頻度ベクトル（校正前頻度ベクトル）と校正後文書８における頻度ベクトル（校正後頻度ベクトル）との近似値を算出する。ここで、例えば、処理対象の要素が文書において全く出現しない場合には、頻度ベクトルが生成されないこととなる。このように、近似値を算出する対象となる頻度ベクトルが存在しない場合には、近似値を０とすればよい。なお、この対象特定処理の説明において、以下、校正前文書７における頻度ベクトルをＶ１とし、校正後文書８における頻度ベクトルをＶ２とする。

ステップ３３では、対象特定部１８が、Ｖ１及びＶ２の近似値が閾値以下であるか否か、即ち、Ｖ１及びＶ２が近似していないかを判定する。なお、この閾値はユーザが予め記憶装置に任意に設定しておくことができる。閾値の具体例としては、例えば、近似しているか否かを判定するのに妥当な基準値である０．８程度と設定しておくこともできるし、頻度ベクトルが著しく異なるもののみを抽出したい場合には、閾値をさらに小さく設定しておいてもよい。対象特定部１８は、近似値が閾値以下であれば、ステップ３４に進む一方、近似値が閾値よりも大きければ、次の要素を処理対象としてループ処理Ｆの処理を続行する。

ステップ３４では、処理対象の要素を校正対象として特定し、対象記憶部１２に格納する。なお、対象記憶部１２は、要素記憶部９と同様のデータ構造であり、そのデータ内容は、要素記憶部９に格納された要素のうち、校正対象として特定された要素のみに限定されたものとなる。

図６は、差分算出処理を説明するフローチャートである。
以下のステップ４１〜ステップ４３は、対象記憶部１２に格納された校正対象要素の夫々を処理対象として行われるループ処理（ループ処理Ｇ）である。

ステップ４１では、差分算出部１９が、校正前文書７及び校正後文書８の夫々について、要素の前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度を、頻度記憶部１１から抽出する。

ステップ４２では、差分算出部１９が、要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍの夫々について、校正後文書８における出現頻度から校正前文書７における出現頻度を差し引いた差分を算出する。そして、差分算出部１９は、各ｎ−ｇｒａｍに含まれる要素及び算出した差分を、差分記憶部１３に格納する。

ステップ４３では、差分算出部１９が、要素の前ｎ−ｇｒａｍを構成する要素を次元軸とし、前ｎ−ｇｒａｍの出現頻度の差分を成分とする一方、要素の後ｎ−ｇｒａｍを構成する要素を次元軸とし、後ｎ−ｇｒａｍの出現頻度の差分を成分とする差分ベクトルを生成する。なお、ここでの「要素の前ｎ−ｇｒａｍを構成する要素」も、前ｎ−ｇｒａｍに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の前に連続して出現する要素（群）を指す。同様に、「要素の後ｎ−ｇｒａｍを構成する要素」も、後ｎ−ｇｒａｍに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の後に連続して出現する要素（群）を指す。この差分ベクトルを表すデータは、差分記憶部
１３に格納された、要素の前ｎ−ｇｒａｍの出現頻度の差分及び要素の後ｎ−ｇｒａｍの出現頻度の差分の両方をベクトル成分としたデータである。

図７は、校正規則抽出処理を説明するフローチャートである。
ステップ５１〜ステップ５４は、対象記憶部１２に格納された校正対象要素の夫々を処理対象として行われるループ処理（ループ処理Ｈ）である。

ステップ５１では、校正規則抽出部２０が、処理対象の校正対象要素について上記ステップ４３で生成された差分ベクトルを、反転させる。差分ベクトルを反転させるとは、換言すれば、差分ベクトルの全ての成分に「−１」を乗算することである。なお、この校正規則抽出処理の説明上、ステップ５１で処理対象とした校正対象要素を要素Ａとし、要素Ａの差分ベクトルを反転させたベクトルをＶ１とする。

ステップ５２〜ステップ５４は、対象記憶部１２に格納された校正対象要素のうち、要素Ａ以外の校正対象要素の夫々を処理対象として行われるループ処理（ループ処理Ｉ）である。なお、この校正規則抽出処理の説明上、ステップ５２〜ステップ５４で処理対象とする要素Ａ以外の校正対象要素を要素Ｂとし、要素Ｂの差分ベクトルをＶ２とする。

ステップ５２では、校正規則抽出部２０が、ベクトル空間モデルに基づいて、Ｖ１及びＶ２の近似値を算出する。
ステップ５３では、校正規則抽出部２０が、Ｖ１及びＶ２の近似値が閾値以上か否か、即ち、Ｖ１及びＶ２が一致若しくは近似しているかを判定する。なお、この閾値はユーザが予め任意に設定しておくことができる。閾値の具体例としては、上述のように、近似しているか否かの判定に用いる基準となる値として、例えば０．８程度としておくことができ、また、閾値が低く設定されればされるほど、広範囲（多数）の要素について校正規則が抽出されることとなる。校正規則抽出部２０は、近似値が閾値以上であれば、ステップ５４に進む一方、近似値が閾値よりも小さければ、次の校正対象要素を処理対象としてループ処理Ｉの処理を続行する。

ステップ５４では、校正規則抽出部２０が、要素Ａ及び要素Ｂを、校正規則を抽出する要素の組合せとして決定する。
ステップ５５では、校正規則抽出部２０が、Ｖ２が正方向を向いているか否か、即ち、要素Ｂの差分ベクトルが正方向を向いているか否かを判定する。この判定は、換言すれば、要素Ｂを含むｎ−ｇｒａｍが校正前文書７よりも校正後文書８において増加しているか否かを判定するものである。対象特定部１８は、Ｖ２が正方向を向いていれば、ステップ５６に進む一方（Ｙｅｓ）、Ｖ２が正方向を向いていなければ、ステップ５７に進む（Ｎｏ）。なお、Ｖ２が正方向を向いていない場合、要素Ａの差分ベクトル（即ち、Ｖ１の反転前のベクトル）が正方向を向いていることとなり、要素Ａを含むｎ−ｇｒａｍが校正前文書７よりも校正後文書８において増加していることになる。

ステップ５６では、校正規則抽出部２０が、要素Ａを校正前の要素、要素Ｂを校正後の要素として校正規則を抽出し、校正規則記憶部１４に格納する。この校正規則は、即ち、「要素Ａを要素Ｂに校正する」ことを示すものである。

ステップ５７では、校正規則抽出部２０が、要素Ｂを校正前、要素Ａを校正後として校正規則を抽出し、校正規則記憶部１４に格納する。この校正規則は、即ち、「要素Ｂを要素Ａに校正する」ことを示すものである。

なお、上記ステップ５６及びステップ５７では、校正規則抽出部２０は、抽出した校正規則がすでに校正規則記憶部１４に格納されている場合には、重複登録を防ぐため、校正
規則記憶部１４に登録をしないものとする。

図８は、表示処理を説明するフローチャートである。
以下のステップ６１は、校正規則記憶部１４に格納された校正規則の夫々について行われるループ処理（ループ処理Ｊ）である。

ステップ６１では、表示処理部２１が、表示部５に、校正規則記憶部１４に格納された校正規則を表示させる。
図９は、辞書登録処理を説明するフローチャートである。

以下のステップ７１は、校正規則記憶部１４に格納された校正規則の夫々について行われるループ処理（ループ処理Ｋ）である。
ステップ７１では、辞書登録部２２が、校正辞書データベース２３に対し、校正規則記憶部１４に格納された校正規則を登録する。

かかる校正支援装置の処理動作によれば、校正前文書及び校正後文書に基づいて、文書に対してどのような校正がなされたか、即ち、当該文書における校正規則が抽出される。そして、抽出された校正規則が表示部に表示され、ユーザに提示される。このため、文書を作成しようとするユーザは、自ら校正前文書と校正後文書とを比較し、どのような校正がなされたかを探し出さなくて済むようになる。そして、このように、ユーザが校正規則を容易に知ることができることで、文書作成の効率化を図ることができる。特に、例えば、ユーザが、作成しようとする文書と専門分野や内容が近い他の文書を選択して本技術を用いれば、ユーザは文書作成のために特に有益な情報を得ることができる。また、本校正支援装置では、校正前文書及び校正後文書の文の対応関係に関係なく、各要素のｎ−ｇｒａｍの出現頻度につき、校正前後における差分を比較して校正規則を抽出する。したがって、例えば、校正によって章立てや文の入れ替えなどがなされ、校正前と校正後の文が一対一で対応付けられない文書からでも、校正前後の文の位置関係等を考慮することなく、校正規則を抽出することができる。

さらに、校正規則が校正辞書データベース２３に登録されることで、ユーザは、後のタイミングにおいても、校正辞書データベース２３に蓄積された校正規則を適宜参照することが可能となる。また、このような校正辞書の校正規則エントリをユーザが手入力により登録する手間も省かれることとなる。さらに、このように蓄積された校正規則は、例えば、校正処理を自動で行うシステムにおいても利用することが可能である。

なお、表示処理部２１による表示処理及び辞書登録部２２による辞書登録処理は、必ずしも両方行う必要はなく、いずれか一方のみを行ってもよい。さらに、校正規則の出力方法は、表示処理や辞書登録処理に限らず、ユーザが認識可能なあらゆる出力方法を用いることができる。かかる出力方法として、例えば、印刷装置から校正規則を印刷するようにしてもよい。

また、上記対象特定部１８による対象特定処理は、校正対象外である要素を後続の処理対象から除外することで、処理量を抑えることができる役割を果たしている。しかしながら、当該処理を行わなくても、校正前文書７及び校正後文書８から校正規則を抽出することは可能である。この場合、差分算出処理や校正規則抽出処理においても、原則として要素記憶部９に格納された要素全体を処理対象とすることとなる。

さらに、上記校正支援処理の実行開始条件は、入力部１を介したユーザによる操作指示に限らず、例えば、予め設定されたジョブ等であってもよい。また、上述の校正支援処理では、１組の校正前文書及び校正後文書のみを処理対象としていたが、例えば、記憶手段
に複数組の校正前文書及び校正後文書を蓄積しておき、これらの複数組の校正前文書及び校正後文書に対し連続してバッチ処理を行ってもよい。そうすれば、複数組の校正前文書及び校正後文書で行われた校正の内容がまとめて出力されることとなり、特に、校正対象の文書が多数ある場合に、処理の効率化を図ることができる。

ここで、ベクトルの近似値の算出において、上記実施例では、対象特定部１８が、要素の前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度の「両方」を成分とした頻度ベクトルを、校正前文書７及び校正後文書８の両方について生成している。そして、対象特定部１８は、かかる校正前文書７における頻度ベクトルと校正後文書８における頻度ベクトルとの近似値を算出している。しかし、かかる方法に限らず、例えば、前ｎ−ｇｒａｍの出現頻度を成分とした頻度ベクトルと、後ｎ−ｇｒａｍの出現頻度を成分とした頻度ベクトルと、を「別々に」生成してもよい。そして、前ｎ−ｇｒａｍの出現頻度を成分とした頻度ベクトルと、後ｎ−ｇｒａｍの出現頻度を成分とした頻度ベクトルと、の夫々について、別々に、校正前文書７における頻度ベクトルと校正後文書８における頻度ベクトルとの近似値を算出してもよい。さらに、前ｎ−ｇｒａｍの出現頻度を成分とした頻度ベクトルの近似値及び後ｎ−ｇｒａｍの出現頻度を成分とした頻度ベクトルの近似値の平均値を算出し、当該平均値を、ステップ３３の判定基準とする近似値としてもよい。このようにしても、要素の前ｎ−ｇｒａｍの出現頻度及び後ｎ−ｇｒａｍの出現頻度の両方を反映させた近似値を算出することが可能である。同様に、差分算出部１９においても、前ｎ−ｇｒａｍの出現頻度の差分ベクトルと、後ｎ−ｇｒａｍの出現頻度の差分ベクトルと、を別々に生成し、夫々の差分ベクトルを用いて算出した近似値の平均値を、ステップ５３の判定基準とする近似値としてもよい。

なお、文書解析部１６は、文書の解析において、分割結果としての単語、句、文等とともに、解析情報を付与することもできる。解析情報とは、例えば、品詞（単語の場合、「名詞」「固有名詞」「動詞」等、句の場合は「名詞句」「動詞句」「形容詞句」等）、単語の種類（自立語、非自立語）、係り受け、意味属性（生物、非生物、抽象物等）等を含む情報である。ここで、かかる解析情報を付す場合について、簡単な文の一例を用いて説明する。例えば、「以下の発癌性試験を行った。」という文書を、単語単位で分割して解析情報を付与した場合、「以下[名詞]／の[助詞]／発癌性試験[名詞,自立語]／を[助詞,
対象格]／行っ[動詞語幹,自立語]／た[動詞活用語尾,終止形]／。[句点]」となる。なお
、「／」は要素間の区切りを示す。また、当該文書を、句単位で分割して解析情報を付与した場合、「[以下の[自立語＝以下]／発癌性試験を[自立語＝発癌性試験]／行った[自立語＝行っ]]」となる。さらに、当該句の係り受け情報としては、「以下の」が「発癌性試験を」に係り、「発癌性試験を」が「行った」に係る。

そして、このように解析情報を付与した場合、文書解析部１６は、特定の解析情報が付された要素のみを要素記憶部９に格納してもよい。例えば、名詞の単語についてのみ校正規則を抽出する場合、文書解析部１６は、ステップ１１において文書を単語単位で分割するとともに品詞の解析情報を付与し、ステップ１２において名詞のみを要素記憶部９に格納すればよい。そうすれば、後続の各処理において、他の品詞の要素を処理対象から除外することができ、無駄な処理を省くことができる。

また、上記説明では、要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍの両方に基づいて校正規則を抽出しているが、要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍのいずれか一方に基づいて校正規則を抽出してもよい。この場合には、要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍの両方に基づいて校正規則を抽出する場合と比べ、抽出精度は下がる可能性があるが、上記校正支援処理全体に要する処理量を抑えることができる。特に、頻度ベクトルや差分ベクトルの次元数が少なくなるため、近似値の算出に要する計算量を抑えることができる。

また、頻度算出処理において、ｎ−ｇｒａｍに含まれる要素のうち、自立語で活用している単語があれば、見出し語や特定の活用形に修正するようにしてもよい。そのようにすれば、本来同一のものとして処理すべき単語については、文書中における個別具体的な活用による相違を吸収し、同一の単語として処理をすることができる。

次に、上述の校正支援処理について、データ例を用いて具体的に説明する。ここでは、「発癌性試験」という単語を、「がん原性試験」に置き換える校正が行われた文書を処理対象とする場合を想定する。

図１０は、文書解析部１６が、校正前文書７及び校正後文書８の夫々を単語単位で分割し、かつ、品詞が名詞である単語のみを要素記憶部９に格納した場合における、要素記憶部９のデータ例を示す。また、図１１は、共起記憶部１０のデータ例を示し、図１１（Ａ）は、校正前文書７の２−ｇｒａｍ、図１１（Ｂ）は、校正後文書８における２−ｇｒａｍを示す。

頻度算出部１７は、校正前文書７及び校正後文書８の夫々について、要素記憶部９に記憶されたこれらの単語の夫々につき、共起記憶部１０を参照し、前２−ｇｒａｍの出現頻度及び後２−ｇｒａｍの出現頻度をカウントする。ここで、当該カウントの結果、校正前文書７において、［発癌性試験］の前２−ｇｒａｍとして、［の］［発癌性試験］という２−ｇｒａｍが３５個、［が］［発癌性試験］という２−ｇｒａｍが２９個、［総合］［発癌性試験］という２−ｇｒａｍが７回出現しているとする。また、校正前文書７において、［発癌性試験］の後２−ｇｒａｍとして、［発癌性試験］［および］という２−ｇｒａｍが８個、［発癌性試験］［が］という２−ｇｒａｍが９個、［発癌性試験］［で］という２−ｇｒａｍが３０回出現しているとする。一方、校正後文書８では、［発癌性試験］を含む２−ｇｒａｍが全く出現していないとする。図１２（Ａ）は、かかる場合において頻度記憶部１１に格納されるデータのうち、校正前文書７における「発癌性試験」の前２−ｇｒａｍの出現頻度を示すデータである。一方、図１２（Ｂ）は、頻度記憶部１１に格納されるデータのうち、校正前文書７における「発癌性試験」の後２−ｇｒａｍの出現頻度を示すデータである。

また、上記頻度算出部１７におけるカウントの結果、校正後文書８において、［がん原性試験］の前２−ｇｒａｍとして、［の］［がん原性試験］という２−ｇｒａｍが３５個、［が］［がん原性試験］という２−ｇｒａｍが２９個、［総合］［がん原性試験］という２−ｇｒａｍが７回存在しているとする。一方、校正後文書８において、［がん原性試験］の後２−ｇｒａｍとして、［がん原性試験］［および］という２−ｇｒａｍが８個、［がん原性試験］［が］という２−ｇｒａｍが９個、［がん原性試験］［で］という２−ｇｒａｍが３０回出現しているとする。一方、校正前文書９では、［がん原性試験］を含む２−ｇｒａｍが全く出現していないとする。図１３（Ａ）は、かかる場合において頻度記憶部１１に格納されるデータのうち、校正後文書８における［がん原性試験］の前２−ｇｒａｍの出現頻度を示すデータである。一方、図１３（Ｂ）は、頻度記憶部１１に格納されるデータのうち、校正後文書８における［がん原性試験］の後２−ｇｒａｍの出現頻度を示すデータである。

そして、対象特定部１８では、［発癌性試験］の前ｎ−ｇｒａｍを構成する要素を次元軸とし、前ｎ−ｇｒａｍの出現頻度を成分とする一方、［発癌性試験］の後ｎ−ｇｒａｍを構成する要素を次元軸とし、後ｎ−ｇｒａｍの出現頻度を成分とする頻度ベクトルを生成する。具体的には、［発癌性試験］の校正前文書７の頻度ベクトルは、次のようなベクトルとなる。即ち、前ｎ−ｇｒａｍとして、［の］の次元軸の成分が３５、［が］の次元軸の成分が２９、［総合］の次元軸の成分が７、後ｎ−ｇｒａｍとして、［および］の次
元軸の成分が８、［が］の次元軸の成分が９、［で］の次元軸の成分が３０の、６次元のベクトルとなる。一方、校正後文書８には、上記２−ｇｒａｍのいずれも出現しないため、ベクトルが生成されない。したがって、校正前文書７の頻度ベクトルと校正後文書８の頻度ベクトルは少なくとも近似しないこととなり、対象特定部１８は、［発癌性試験］を、校正対象の単語として対象記憶部１２に格納する。また、同様に、［がん原性試験］の校正前文書７及び校正後文書８の頻度ベクトルも近似しないため、対象特定部１８は、［がん原性試験］を、校正対象の要素とし、対象記憶部１２に格納する。この文書において、対象特定部１８が校正対象の要素として特定した要素が、仮に［発癌性試験］及び［がん原性試験］の２つのみであった場合、対象記憶部１２のデータは、図１４のようになる。

そして、差分算出部１９は、対象記憶部１２に格納された［発癌性試験］につき、頻度記憶部１１を参照して、校正後文書８における２−ｇｒａｍの出現頻度から校正前文書７における２−ｇｒａｍの出現頻度を差し引いた差分を算出し、差分記憶部１３に格納する。図１５は、差分記憶部１３のデータ例であり、図１２のデータに対して、［発癌性試験］の前２−ｇｒａｍ及び後２−ｇｒａｍの成分の差分を夫々算出した結果である。また、同様に、図１６は、図１３のデータに対して、［がん原性試験］の前２−ｇｒａｍ及び後２−ｇｒａｍの成分の差分を夫々算出した結果である。そして、差分算出部１９は、［発癌性試験］の前２−ｇｒａｍを構成する単語を次元軸とし、前２−ｇｒａｍの出現頻度を成分とする一方、［発癌性試験］の後２−ｇｒａｍを構成する単語を次元軸とし、後２−ｇｒａｍの出現頻度の差分を成分とした差分ベクトルを生成する。

さらに、校正規則抽出部２０は、対象記憶部１２に格納された［発癌性試験］につき、その差分ベクトルを反転させる。そして、校正規則抽出部２０は、当該反転させたベクトルと、同じく対象記憶部１２に格納された［がん原性試験］の差分ベクトルとの近似値を算出する。

ここで、図１７は、［発癌性試験］の差分ベクトル及び［がん原性試験］の差分ベクトルを図式化したものである。なお、図１７では、ベクトルを視覚的にわかりやすくするため、［発癌性試験］及び［がん原性試験］の前２−ｇｒａｍの出現頻度の差分のみを成分とした３次元のベクトルとして示すこととする。破線のベクトルが［発癌性試験］の差分ベクトルであり、実線のベクトルが［がん原性試験］の差分ベクトルである。このように、［発癌性試験］の差分ベクトルは、［の］の次元軸の成分が−３５、［が］の次元軸の成分が−２９、［総合］の次元軸の成分が−７のベクトルであり、負方向（全ての成分がマイナス）を向いている。一方、［がん原性試験］の差分ベクトルは、［の］の次元軸の成分が３５、［が］の次元軸の成分が２９、［総合］の次元軸の成分が７であり、正方向（全ての成分がプラス）を向いている。ここで、［発癌性試験］の差分ベクトルを反転させる（即ち、全成分に−１を乗算する）と、［がん原性試験］の差分ベクトルと全成分が一致することとなる。この場合、近似値は最大の１となり、少なくとも近似するか否かの判断基準として設定する閾値以上となる。このため、校正規則抽出部２０は、［発癌性試験］及び［がん原性試験］を校正組合せとする。

そして、上述したように、［発癌性試験］の差分ベクトルは負方向を向き、［がん原性試験］の差分ベクトルは正方向を向いている。このため、校正規則抽出部２０は、［発癌性試験］を校正前、［がん原性試験］を校正後の要素として、校正規則を抽出し、図１８に示すように、校正規則記憶部１４に格納する。

さらに、表示処理部２１がかかる校正規則を表示部２０に表示させ、また、辞書登録部２２がかかる校正規則を校正辞書記憶部６の校正辞書データベース２３に登録する。なお、図１９は、このように［発癌性試験］を校正前、［がん原性試験］を校正後の要素とし
た校正規則が登録された校正辞書データベース２３のデータ例である。

［第２実施例］
次に、校正支援装置の第２実施例について説明する。第２実施例に係る校正支援装置は、第１実施例に比べて次の点で異なる。即ち、第１実施例では、文書における共起関係として、要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍを抽出し、要素の前ｎ−ｇｒａｍ及び後ｎ−ｇｒａｍの出現頻度に基づいて処理を行った。かかるｎ−ｇｒａｍにおいては、要素の出現順が異なれば異なるｎ−ｇｒａｍであるという扱いとなるため、例えば、［Ａ］［Ｂ］［Ｃ］の３−ｇｒａｍと、［Ｂ］［Ａ］［Ｃ］の３−ｇｒａｍとは異なるものとして処理されていた。一方、第２実施例では、要素の前後に出現する複数要素を、出現順に依存しない集合として処理する。上記例の場合、第２実施例では、［Ｃ］を基準とすると、１番目の３−ｇｒａｍにおいて［Ｃ］の前に出現する［Ａ］［Ｂ］も、２番目の３−ｇｒａｍにおいて［Ｃ］の前に出現する［Ｂ］［Ａ］も、いずれも同じ｛［Ａ］［Ｂ］｝として処理される。以下、第１実施例と異なる点についてのみ説明する。

図２０は、第２実施例における、文書解析処理を説明するフローチャートである。
以下のステップ８１〜８６は、校正前文書７及び校正後文書８の夫々について行われる処理（ループ処理Ｌ）である。

ステップ８１〜８３は、第１実施例のステップ１１及び１２と同様であるため、説明を省略する。
ステップ８４では、文書解析部１６が、抽出したｎ−ｇｒａｍから、各要素の前に連続して出現するｎ−１個の要素、及び、各要素の前に連続して出現するｎ−１個の要素を抽出する。

ステップ８５では、文書解析部１６が、各要素の前に連続して出現するｎ−１個の要素をソートする。同様に、文書解析部１６は、各要素の後に連続して出現するｎ−１個の要素をソートする。なお、ソート規則は、全てのソート対象に対して同一の規則であれば、例えば昇順や降順など、どのような規則であってもよい。

ステップ８６では、文書解析部１６が、ステップ８５でソートされた、各要素の前に出現するｎ−１個の要素を１つの集合とし、各要素と当該集合との組合せを、共起記憶部１０に格納する。同様に、文書解析部１６は、ソートされた、各要素の後に出現するｎ−１個の要素を１つの集合とし、各要素と当該集合との組合せを、共起記憶部１０に格納する。

なお、以降の頻度算出処理、対象特定処理、差分算出処理、校正規則抽出処理においても、要素の前ｎ−ｇｒａｍの代わりに、共起記憶部１０に格納された、要素及び当該要素の前に出現するｎ−１個の要素の集合の組合せを用いて処理を行う。同様に、要素の後ｎ−ｇｒａｍの代わりに、要素及び当該要素の後に出現するｎ−１個の要素の集合の組合せを用いて処理を行う。

かかる第２実施例の処理によれば、例えば、校正対象となった要素の前に出現する要素群又は後に出現する要素群において、単に要素の順番を入れ替えるだけの校正が行われた場合には、校正前後の要素群が同一のものとして処理される。

なお、第１実施例と同様に、頻度算出処理において、抽出した要素のうち、自立語で活用している単語があれば、見出し語や特定の活用形に修正した上で集合を抽出してもよい。

ここで、上記第２実施例における処理について、簡単な具体例を示して説明する。
例えば、校正前文書７が「目の前に広く青い海が広がった。」であり、校正後文書８が、「目の前に青く広い海原が広がった。」であった場合を想定する。ここで、校正前文書７及び校正後文書８が単語ごとに分割された場合、校正前文書７において「海」の前に連続して出現する２つの単語は、「広く」及び「青い」となる。一方、校正後文書８において「海原」の前に連続して出現する２つの単語は、「青く」及び「広い」となる。このとき、第１実施例において、「海」の前３−ｇｒａｍを見出し語に修正した上で抽出し、当該前３−ｇｒａｍの出現頻度をカウントした場合には、３−ｇｒａｍは［広］［青］［海］となり、頻度記憶部１１は、図２１（Ａ）のようになる。一方、第２実施例において、「海」の前に連続して出現する２つの単語を、見出し語に修正した上で昇順ソートし、集合として処理した場合、頻度記憶部１１は、図２１（Ｂ）のようになる。即ち、第２実施例では、［広］［青］の２つの単語が昇順ソートされ、｛［青］，［広］｝の集合となる。同様に、校正後文書８について「海原」に着目すると、第１実施例では、「海原」の前３−ｇｒａｍは［広］［青］［海］となり、頻度記憶部１１は、図２１（Ｃ）のようになる。一方、第２実施例では、「海原」の前に連続して出現する２つの単語を集合として処理すると、図２１（Ｄ）のようになる。即ち、第２実施例では、［広］［青］の２つの単語が昇順ソートされ、｛［青］，［広］｝の集合となる。そして、第１実施例では、差分算出処理において「海」「海原」の前３−ｇｒａｍについて校正前文書７及び校正後文書８における差分を算出した場合、夫々、図２２（Ａ）及び図２２（Ｂ）のようになる。一方、第２実施例では、「海」「海原」の前の２つの単語の集合について校正前文書７及び校正後文書８における差分を算出した場合、夫々、図２２（Ｃ）及び図２２（Ｄ）のようになる。

このように、第１実施例では、校正前文書７における「海」の前３−ｇｒａｍと、校正後文書８における「海原」の前３−ｇｒａｍとは、図２２（Ａ）及び図２２（Ｂ）からも明らかなように、「海」の前の単語群が「［広］［青］」と「［青］［広］」とで異なる。したがって、第１実施例では、差分ベクトルを生成した場合、「海」と「海原」とでは、次元軸が異なるベクトルが生成される。一方、第２実施例では、「海」の前に連続して出現する２つの単語の集合と、「海原」の前に連続して出現する２つの単語の集合は、図２２（Ｃ）及び図２２（Ｄ）からも明らかなように、いずれも｛［青］，［広］｝で一致している。したがって、第２実施例では、差分ベクトルを生成した場合、「海」と「海原」とで、次元軸が同じ差分ベクトルが生成される。したがって、この場合、「海」の差分ベクトルを反転させたベクトルと「海原」の差分ベクトルとが一致するため、近似値は高くなる。このように、上記データ例のような場合、第１実施例では「海」及び「海原」が校正組合せとして抽出されない可能性が高いが、第２実施例では、抽出される可能性が高くなるという相違がある。
［第３実施例］
次に、校正支援装置の第３実施例について説明する。第３実施例に係る校正支援装置は、第１実施例や第２実施例に比べて次の点で異なる。即ち、第１実施例や第２実施例に係る校正支援装置は、原則として、校正前後において、校正前の要素を含んだｎ−ｇｒａｍの出現頻度の差分（減少量）と、校正後の要素を含んだｎ−ｇｒａｍの出現頻度の差分（増加量）と、は対応関係にある可能性が高いという前提で動作していた。例えば、校正によって全ての要素Ａが要素Ｂに校正されたとすると、要素Ａの減少数と要素Ｂの増加数は一致する。また、全ての要素Ａについて要素Ｂへの校正がなされていなくても、要素Ａから要素Ｂへの校正のみがなされ、要素Ａから他の要素Ｘへの校正や他の要素Ｙから要素Ｂへの校正などがなければ、要素Ａの減少数と要素Ｂの増加数は一致する。要素Ａの減少数と要素Ｂの増加数が一致するということは、即ち、要素Ａを含んだｎ−ｇｒａｍの出現頻度の減少量と、要素Ｂを含んだｎ−ｇｒａｍの出現頻度の差分の増加量に対応関係がある、ということである。

しかし、校正において、パラグラフなどのまとまった分量（以下、バルクという）の文
書の削除や追加があった場合、校正前の要素を含んだｎ−ｇｒａｍの出現頻度の減少量と、校正後の要素を含んだｎ−ｇｒａｍの出現頻度の増加量と、の対応関係は必ずしも成立しない。

そこで、第３実施例では、このように文書がバルク追加又はバルク削除されたときにも、校正規則を抽出できるようにする。
具体的には、第３実施例に係る校正支援装置は、校正対象となった要素以外の要素同士のｎ−ｇｒａｍの出現頻度が、文書のバルク追加又はバルク削除以外では原則として大きく変化をせず、また、校正対象となる要素が連続する確率も比較的低いという前提のもとに、次のような動作をする。即ち、ある要素Ａ（第１要素）を含んだｎ−ｇｒａｍの出現頻度の校正前後の差分（即ち変動量（増加量又は減少量））との間で対応関係にある要素が抽出できない場合、要素Ａとの間で対応関係にない要素Ｂ（第２要素）を選択する。そして、当該要素Ａ及び要素Ｂの少なくともいずれか一方との間でｎ−ｇｒａｍを構成する各要素（要素Ｘとする）の出現頻度の校正前後における差分を特定する（第１差分）。一方、要素Ｘと、要素Ａ及び要素Ｂのいずれでもない他の単語Ｗと、のｎ−ｇｒａｍの出現頻度の校正前後における差分を特定する（第２差分）。この第１差分から第２差分を差し引いた値が、文書のバルク追加又はバルク削除によって生じた、要素Ａ及び要素Ｘを含んだｎ−ｇｒａｍの差分となる。そして、このようにして算出した差分を用い、要素Ａ及び要素Ｘを含んだｎ−ｇｒａｍの出現頻度の差分又は要素Ｂ及び要素Ｘを含んだｎ−ｇｒａｍの出現頻度の差分のいずれか一方に対して調整を行う。その結果、要素Ａが要素Ｂに校正されている場合又は要素Ｂが要素Ａに校正されている場合に、文書のバルク追加又はバルク削除が行われても、要素Ａを含んだｎ−ｇｒａｍの出現頻度の差分と、要素Ｂを含んだｎ−ｇｒａｍの出現頻度の差分と、の対応関係を特定することが可能となる。

図２３は、第３実施形態における校正規則抽出処理を説明するフローチャートである。
ステップ５１〜ステップ５７は、図７に示したステップ５１〜５７と同様であるため、説明を省略する。

ステップ５８では、校正規則抽出部２０は、ステップ５４において校正組合せを抽出できたか否か、即ち、Ｖ１及びＶ２の近似値が閾値以上の要素の組合せがあったか否かを判定する。校正組合せを抽出できた場合には、ループ処理Ｉ内の処理を終了する一方（Ｙｅｓ）、校正組合せを抽出できなかった場合には、ステップ５９に進む（Ｎｏ）。

ステップ５９では、バルク文書の追加又は削除が行われた範囲におけるｎ−ｇｒａｍの出現頻度の増減量に基づいて差分ベクトルの成分を調整する、ベクトル調整処理を実行する。

図２４は、ベクトル調整処理を説明するフローチャートである。
ステップ９１では、校正規則抽出部２０は、要素Ａの校正前後における差分（即ち、校正前文書７における出現頻度と校正後文書８における出現頻度との差分）Ａ１と、要素Ｂの出現頻度の校正前後における差分Ｂ１と、の間の差分Ｚ（Ａ１−Ｂ１）を算出する。なお、差分Ｚは、絶対値で算出すればよい。

ステップ９２では、校正規則抽出部２０は、Ｖ１及びＶ２につき、各成分（即ち、Ｖ１においては要素Ａを含む各ｎ−ｇｒａｍの出現頻度の校正前後における差分の反転であり、Ｖ２においては要素Ｂを含む各ｎ−ｇｒａｍの出現頻度の校正前後における差分）の差分（Ｖ１−Ｖ２）を算出する。

ステップ９３〜ステップ９５は、Ｖ１及びＶ２の成分に対応する夫々の要素（即ち、要素Ａ及び要素Ｂの少なくともいずれか一方との間でｎ−ｇｒａｍを構成する要素である）
を処理対象として行われるループ処理（ループ処理Ｍ）である。この処理では、Ｖ１及びＶ２の成分のうち、Ｖ１−Ｖ２の差分が大きい成分に対応する要素から順に処理対象とする。以下、この処理対象の要素を、要素Ｘという。

ステップ９３では、校正規則抽出部２０は、文書のバルク追加又はバルク削除によって生じた、要素Ｘ及び要素Ａを含むｎ−ｇｒａｍの出現頻度の変動量の推定値Ｓ（Ｘ）を算出する。この推定値Ｓ（Ｘ）は、例えば、次のような式によって算出することができる。「Ｓ（Ｘ）＝［校正前後における要素Ｘの出現頻度の差分］−ＳＵＭ（ｉ）［ｎ−ｇｒａｍＸＷ＿ｉの出現頻度の差分］」
ここで、Ｗは、要素Ａ及び要素Ｂのいずれとも異なる他の要素であり、ｎ−ｇｒａｍＸＷ＿iは、要素Ｘ及び要素Ｗのそれぞれを含んだｎ−ｇｒａｍである。

即ち、上記式においては、校正規則抽出部２０は、まず、［校正前後における要素Ｘの出現頻度の差分］（第１差分）を算出する。
さらに、校正規則抽出部２０は、ＳＵＭ（ｉ）［ｎ−ｇｒａｍＸＷ＿ｉの出現頻度の差分］、即ち、要素Ｘ及び要素Ｗを含むｎ−ｇｒａｍの出現頻度の校正前後における差分（第２差分）を算出する。第２差分は、要素Ｗが複数ある場合には、全ての要素Ｗについて合算した値である。なお、ｎ−ｇｒａｍが３−ｇｒａｍ以上である場合、要素Ｗは、２つ以上の連続する要素を含む概念とする。

そして、校正規則抽出部２０は、第１差分と第２差分との差分を算出して、Ｓ（Ｘ）とする。なお、Ｓ（Ｘ）は、原則として、文書のバルク削除がされている場合には負の数となる一方、バルク追加がされている場合には、正の数となる。

ステップ９４では、校正規則抽出部２０は、Ｖ１における要素Ｘに対応する成分、即ち、要素Ｘ及び要素Ａを含むｎ−ｇｒａｍの出現頻度の校正前後における差分を反転させた値を、Ｓ（Ｘ）で調整する。この処理は、換言すれば、要素Ｘ及び要素Ａを含むｎ−ｇｒａｍの出現頻度の差分において、バルク追加又はバルク削除された文書内の出現頻度の差分がカウントされないように、出現頻度を調整する処理である。具体的には、例えば、Ｖ１における要素Ｘに対応する成分、即ち、要素Ｘ及び要素Ａを含むｎ−ｇｒａｍの出現頻度の校正前後における差分を反転させた値に、Ｓ（Ｘ）を加算する。

このステップ９３及びステップ９４の処理は、換言すれば、次のようなものである。すなわち、文書のバルク削除が行われたときには、Ｓ（Ｘ）は、［校正前後における要素Ｗの出現頻度の減少量］−ＳＵＭ（ｉ）［ｎ−ｇｒａｍＸＷ＿ｉの出現頻度の減少量］であり、これを、Ｖ１における要素Ｘに対応する成分からＳ（Ｘ）を差し引く。一方で、文書のバルク追加が行われたときには、Ｓ（Ｘ）は、［校正前後における要素Ｗの出現頻度の増加量］−ＳＵＭ（ｉ）［ｎ−ｇｒａｍＸＷ＿ｉの出現頻度の減少量］であり、これを、Ｖ１における要素Ｘに対応する成分からＳ（Ｘ）に加える。

なお、Ｖ１の成分をＳ（Ｘ）の値で調整する代わりに、Ｖ２における要素Ｘに対応する成分、即ち、要素Ｘ及び要素Ｂを含むｎ−ｇｒａｍの出現頻度の校正前後における差分に、Ｓ（Ｘ）の値を反映させて調整を行ってもよい。

ステップ９５では、校正規則抽出部２０は、（１）Ｖ１及びＶ２の近似値が閾値未満であり、（２）Ｚ−ＳＵＭ（算出済のＳ（Ｘ））が閾値以上である、という条件を満たすか否かを判定する。ＳＵＭ（算出済のＳ（Ｘ））とは、即ち、これまでにステップ９３で算出したＳ（Ｘ）の合算値である。このＳ（Ｘ）は、絶対値で算出すればよい。なお、（１）及び（２）で用いる閾値は、それぞれユーザが予め記憶装置に任意に設定しておくことができる。この判定において、（１）及び（２）の条件は、いずれか一方が満たされてい
ることを以って条件を満たしていると判定してもよいし、両方が満たされていることを以って条件を満たしていると判定してもよい。条件が満たされている場合には、ループ処理Ｍ内の次の処理を実行し（Ｙｅｓ）、条件が満たされていない場合には、ループ処理Ｍの処理から抜ける（Ｎｏ）。

次に、かかるベクトル調整処理を適用した校正規則抽出の具体例につき、図２５〜図２８を用いて説明する。
まず、校正前文書７が、図２５に示す内容であったとする。一方で、校正後文書８が、図２６に示す内容であったとする。

これらの校正前文書７及び校正前文書８を比較すると、「公正」が「校正」に置換されている。このため、「公正」及び「校正」は、校正組合せとして抽出されるべきである。しかし、校正前後において、校正前文書７のうち、「しかし、以上の公正からはこの公正結果を得ることができないかもしれない。この公正はやはり誤っていたことを公正の結果判断することができる。この方法によれば、さきほどの近似値の値は、その値を求めることにより算出できる。このベクトルの近似値は差分によるものである。」の文書がバルク削除されている。

かかる校正前文書７及び校正前文書８における、「公正」及び「校正」を含んだ２−ｇｒａｍの出現頻度を、図２７に示す。なお、本説明では、説明の簡略化のため、前２−ｇｒａｍのみを処理対象とするものとする。ここで、校正前後における「公正」（要素Ａ）の２−ｇｒａｍの減少量と、「校正」（要素Ｂ）の２−ｇｒａｍの増加量と、を比較する。すると、「公正」及び「校正」との間で２−ｇｒａｍを構成する各要素Ｘのうち、一部の要素である「この」、「の」、「を」との２−ｇｒａｍの出現頻度の変動量において、対応関係を有していない。図２８に、要素Ａ「公正」の出現頻度の差分ベクトルの成分と、この差分ベクトルを反転させたベクトルＶ１の成分と、要素Ｂ「校正」の差分ベクトルの成分と、を示す。このように、Ｖ１とＶ２とは、要素Ｘである「この」、「の」、「を」に対応する成分が一致しないため、少なくとも第１実施例又は第２実施例の処理においては、校正組合せとして抽出されない可能性が高い。

ここで、前述の第３実施例におけるベクトル調整処理を適用すると、次のようになる。まず、要素Ａ「公正」の出現頻度の差分である変動量Ａ１＝１１であり、要素Ｂ「校正」の出現頻度の差分である変動量Ｂ１＝７となる。そして、Ａ１とＢ１との差分であるＺ＝４（１１−７）となる。

次に、図２８にさらに示すように、ベクトルＶ１、Ｖ２について、Ｖ１−Ｖ２を計算する。そして、各成分に対応する要素Ｘのそれぞれについて処理を行う。このとき、差分の大きい要素順にそれぞれ処理を行う。本具体例の場合には、要素Ｘ１「この」、Ｘ２「の」、Ｘ３「を」の順となる。

ここで、以下の説明では、要素Ｘ３「を」の処理例を用いて説明する。即ち、「文書のバルク削除によって生じた、要素Ｘ３「を」と要素Ａ「公正」とを含む２−ｇｒａｍの出現頻度の減少数」の推定値Ｓ（Ｘ１）は、図２４のステップ９３の計算式を用い、次のようにして計算できる。即ち、（１）要素Ｘ３「を」の出現頻度は、校正前文書７では「８」である一方、校正後文書８では「５」である。即ち、校正前後で、要素Ｘ３「を」の出現頻度は「３」減少している。（２）また、要素Ｘ３「を」と、要素Ｘ３「を」に続く要素であって要素Ａ「公正」及び要素Ｂ「校正」のいずれとも異なる要素Ｗと、の２−ｇｒａｍの出現頻度は、校正前文書７では「７」である一方、校正後文書８では「５」であり、校正前後の減少数は「２」である。

したがって、図２４のステップ９３の計算式にあてはめると、Ｓ（Ｘ３）＝３−２＝１と計算できる。
そして、Ｖ１の成分のうち、要素Ｘ３「を」に対応する成分「１」から、Ｓ（Ｘ３）の「１」を差し引くと、「０」となる。その結果、Ｖ１とＶ２における要素Ｘ１「を」に対応する成分は、いずれも「０」となり一致する。

同様の処理を、他の要素Ｘ２〜Ｘｎにも行うことで、Ｖ１とＶ２のベクトルの近似値が高くなる。なお、このようにベクトルの調整が進行したことは、要素Ａ「公正」の出現頻度の差分である変動量Ａ１と要素Ｂ「校正」の出現頻度の差分である変動量Ｂ１の差分Ｚから、算出済のＳ（Ｘ）の合算値を差し引いた値が小さくなることによって確認することもできる。

そして、前述したようにＶ１とＶ２のベクトルの近似値が高くなることによって、要素Ａ「公正」及び要素Ｂ「校正」が校正組合せとして抽出されることが可能となる。
かかる第３実施例の処理によれば、文書がバルク追加又はバルク削除されたときにも、校正規則を抽出するのに用いる差分ベクトルの成分において、当該バルク文書に含まれるｎ−ｇｒａｍの出現頻度が調整される。このため、校正前の要素を含んだｎ−ｇｒａｍの出現頻度の減少量と、校正後の要素を含んだｎ−ｇｒａｍの出現頻度の増加量の対応関係を特定することが可能となり、校正規則を正しく抽出することができる。

ところで、上述した校正支援装置１０の機能的構成及び物理的構成は、図１に記載の態様に限るものではなく、例えば、各機能や物理資源を統合して実装したり、逆に、さらに分散して実装したりすることも可能である。また、この構成支援装置１０の諸機能は、校正支援プログラムをコンピュータのＣＰＵ（Central Processing Unit）で実行したり、
論理回路若しくはＦＰＧＡ（Field Programmable Gate Array）等で実装したりすること
によって実現することが可能である。

図２９は、校正支援プログラムを実行するコンピュータの一例を示す。当該コンピュータは、入力装置３０、ＣＰＵ３１、ＲＡＭ（Random Access Memory）３２、ＨＤＤ（Hard
Disk Drive）３３及び表示装置３４を有する。

入力装置３０は、各種の入力を受け付ける装置であり、図１の入力部１に対応する。入力装置３０のハードウェアは、例えば、キーボード、マウス、タッチパネル、マイク等である。

ＣＰＵ３１は、ＨＤＤ３３に格納されている校正支援プログラム３５をＲＡＭ３２にロードして、校正支援プログラム３６を実行する。このとき、ＣＰＵ３１では、校正支援プロセス３７が処理される。当該校正支援プロセス３７で実現される機能（処理）は、上述した文書読出処理、文書解析処理、校正対象推定処理、頻度算出処理、校正規則抽出処理、表示処理及び辞書登録処理に対応する。

ＲＡＭ３２には、ＨＤＤ３３に格納されている校正支援プログラム３５がＣＰＵ３１によってロードされるとともに、ＣＰＵ３１で校正支援プログラム３６を実行するのに要する処理データ３８が格納される。なお、ＲＡＭ３２は、図１の処理情報記憶部３に対応し、処理データ３８は、要素記憶部９、共起記憶部１０、頻度記憶部１１、対象記憶部１２、差分記憶部１３及び校正規則記憶部１４に格納されるデータに対応する。

ＨＤＤ３３には、校正支援プログラム３５が格納される一方、校正前文書３９及び校正後文書４０並びに校正辞書データベース４１が格納される。校正前文書３９及び校正後文書４０は、図１の文書記憶部２の校正前文書７及び校正後文書８に対応し、校正辞書デー
タベース４１は、図１の校正辞書記憶部６の校正辞書データベース２３に対応する。

表示装置３４は、校正規則を表示するものであり、図１の表示部５に対応する。表示装置３４のハードウェアは、例えば、ディスプレイ等である。
なお、校正支援プログラム３５は、必ずしもＨＤＤ３３に格納されている必要はなく、例えば、コンピュータが読み取り可能な各種記憶媒体（ＣＤやＤＶＤ、磁気ディスク、フラッシュメモリ等）に格納されていてもよい。また、校正支援プログラム３５は、例えば、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。同様に、校正前文書３９及び校正後文書４０のデータや校正辞書データベース４１についても、各種記憶媒体や、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。

以上の実施形態に関し、更に以下の付記を開示する。
（付記１）校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出部と、前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出部と、前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出部と、を備えたことを特徴とする校正支援装置。

（付記２）前記差分算出部は、前記差分を算出した要素について、共起関係を構成する要素を次元軸とし前記差分を成分とする差分ベクトルを生成し、
前記校正規則抽出部は、前記差分ベクトルが生成された要素について、前記差分ベクトルを反転させ、当該反転させたベクトルと他の要素の前記差分ベクトルとの近似値を算出し、当該近似値が所定値よりも大きい要素の組合せを特定することを特徴とする付記１記載の校正支援装置。

（付記３）前記出現頻度が算出された要素について、校正前文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正前頻度ベクトル、及び、校正後文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正後頻度ベクトルを生成して、前記校正前頻度ベクトルと前記校正後頻度ベクトルとの近似値を算出し、当該近似値が所定値よりも小さいときに、当該要素を校正対象として特定する対象特定部をさらに備え、前記差分算出部は、前記出現頻度が算出された要素のうち、前記対象特定部により校正対象として特定された要素についてのみ差分を算出することを特徴とする付記２記載の校正支援装置。

（付記４）前記共起関係は、要素及び当該要素の前に連続して出現する１つ以上の他の要素が出現順に並べられた集合の組合せ、又は、要素及び当該要素の後に連続して出現する１つ以上の他の要素が出現順に並べられた集合の組合せのいずれか一方又は両方であることを特徴とする付記１〜３のいずれか１つに記載の校正支援装置。

（付記５）前記共起関係は、要素及び当該要素の前に連続して出現する１つ以上の他の要素が所定規則でソートされた集合の組合せ、又は、要素及び当該要素の後に連続して出現する１つ以上の他の要素が所定規則でソートされた集合の組合せのいずれか一方又は両方であることを特徴とする付記１〜３のいずれか１つに記載の校正支援装置。

（付記６）前記校正規則抽出部は、前記差分を算出した要素のうち、前記差分が一定の関係にない第１要素及び第２要素を選択し、前記第１要素及び第２要素の少なくともいずれか一方との間で共起関係を構成する要素の校正後文書における出現頻度と校正前文書における出現頻度との差分を第１差分とする一方、前記第１要素及び第２要素との間で共起関係を構成する要素と、前記第１要素及び前記第２要素のいずれとも異なる他の要素と、の共起関係の校正後文書における出現頻度と校正前文書における出現頻度との差分を第２差分とし、前記第１差分と前記第２差分との差分で、前記第１要素又は前記第２要素のいずれか一方の共起関係の出現頻度の差分を調整することを特徴とする付記１〜５のいずれか１つに記載の校正支援装置。

（付記７）前記頻度算出部は、前記集合に含まれる要素が活用語である場合には、見出し語に修正することを特徴とする付記４又は５に記載の校正支援装置。

（付記８）前記出力処理部は、前記校正規則を、記憶手段に格納された校正辞書に登録することを特徴とする付記１〜７のいずれか１つに記載の校正支援装置。

（付記９）前記文書読出部は、ユーザにより入力手段を介して指定された校正前文書及び校正後文書を記憶手段から読み出すことを特徴とする付記１〜８のいずれか１つに記載の校正支援装置。

（付記１０）前記文書解析部は、校正前文書及び校正後文書を要素に分割するとともに、要素に対して当該要素の属性情報を付与し、前記頻度算出部は、特定の属性情報が付された要素のみについて、前記校正前共起頻度及び前記校正後共起頻度をそれぞれ算出することを特徴とする付記１〜９のいずれか１つに記載の校正支援装置。

（付記１１）校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出手順と、前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出手順と、前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出手順と、をコンピュータに実行させることを特徴とする校正支援プログラム。

１入力部
２文書記憶部
３処理情報記憶部
４制御部
５表示部
６校正辞書記憶部
７校正前文書
８校正後文書
９要素記憶部
１０共起記憶部
１１頻度記憶部
１２対象記憶部
１３差分記憶部
１４校正規則記憶部
１５文書読出部
１６文書解析部
１７頻度算出部
１８対象特定部
１９差分算出部
２０校正規則抽出部
２１表示処理部
２２辞書登録部
２３校正辞書データベース
３０入力装置
３１ＣＰＵ
３２ＲＡＭ
３３ＨＤＤ
３４表示装置
３５校正支援プログラム（ＨＤＤ）
３６校正支援プログラム（ＲＡＭ）
３７校正支援プロセス
３８処理データ
３９校正前文書
４０校正後文書
４１校正辞書データベース

Claims

校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出部と、
前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出部と、
前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出部と、
を備えたことを特徴とする校正支援装置。
前記差分算出部は、前記差分を算出した要素について、共起関係を構成する要素を次元軸とし前記差分を成分とする差分ベクトルを生成し、
前記校正規則抽出部は、前記差分ベクトルが生成された要素について、前記差分ベクトルを反転させ、当該反転させたベクトルと他の要素の前記差分ベクトルとの近似値を算出し、当該近似値が所定値よりも大きい要素の組合せを特定することを特徴とする請求項１記載の校正支援装置。
前記出現頻度が算出された要素について、校正前文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正前頻度ベクトル、及び、校正後文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正後頻度ベクトルを生成して、前記校正前頻度ベクトルと前記校正後頻度ベクトルとの近似値を算出し、当該近似値が所定値よりも小さいときに、当該要素を校正対象として特定する対象特定部をさらに備え、
前記差分算出部は、前記出現頻度が算出された要素のうち、前記対象特定部により校正対象として特定された要素についてのみ差分を算出することを特徴とする請求項２に記載の校正支援装置。
前記共起関係は、要素及び当該要素の前に連続して出現する１つ以上の他の要素が出現順に並べられた集合の組合せ、又は、要素及び当該要素の後に連続して出現する１つ以上の他の要素が出現順に並べられた集合の組合せのいずれか一方又は両方であることを特徴とする請求項１〜３のいずれか１つに記載の校正支援装置。
前記共起関係は、要素及び当該要素の前に連続して出現する１つ以上の他の要素が所定規則でソートされた集合の組合せ、又は、要素及び当該要素の後に連続して出現する１つ以上の他の要素が所定規則でソートされた集合の組合せのいずれか一方又は両方であることを特徴とする請求項１〜３のいずれか１つに記載の校正支援装置。
前記校正規則抽出部は、前記差分を算出した要素のうち、前記差分が一定の関係にない第１要素及び第２要素を選択し、前記第１要素及び第２要素の少なくともいずれか一方との間で共起関係を構成する要素の校正後文書における出現頻度と校正前文書における出現頻度との差分を第１差分とする一方、前記第１要素及び第２要素との間で共起関係を構成する要素と、前記第１要素及び前記第２要素のいずれとも異なる他の要素と、の共起関係の校正後文書における出現頻度と校正前文書における出現頻度との差分を第２差分とし、前記第１差分と前記第２差分との差分で、前記第１要素又は前記第２要素のいずれか一方
の共起関係の出現頻度の差分を調整することを特徴とする請求項１〜５のいずれか１つに記載の校正支援装置。
校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出手順と、
前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出手順と、
前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出手順と、
をコンピュータに実行させることを特徴とする校正支援プログラム。