JP2011227876A - 校正支援装置及び校正支援プログラム - Google Patents

校正支援装置及び校正支援プログラム Download PDF

Info

Publication number
JP2011227876A
JP2011227876A JP2011061796A JP2011061796A JP2011227876A JP 2011227876 A JP2011227876 A JP 2011227876A JP 2011061796 A JP2011061796 A JP 2011061796A JP 2011061796 A JP2011061796 A JP 2011061796A JP 2011227876 A JP2011227876 A JP 2011227876A
Authority
JP
Japan
Prior art keywords
document
calibration
proofreading
difference
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011061796A
Other languages
English (en)
Other versions
JP5673265B2 (ja
Inventor
Seiji Okura
清司 大倉
Akira Shioda
明 潮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011061796A priority Critical patent/JP5673265B2/ja
Publication of JP2011227876A publication Critical patent/JP2011227876A/ja
Application granted granted Critical
Publication of JP5673265B2 publication Critical patent/JP5673265B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文書に対してなされた校正における校正規則を、校正前文書及び校正後文書から自動抽出できるようにする。
【解決手段】文書読出部15が校正前文書7及び校正後文書8を読み出し、文書解析部16がこれを解析して要素に分割し、各要素の共起関係を抽出する。頻度算出部17は、校正前文書において共起関係が出現する頻度及び校正後文書において共起関係が出現する頻度を夫々算出する。さらに、差分算出部19が、校正後の共起頻度から校正前の共起頻度を差し引いた差分を算出し、共起関係に含まれる要素を次元軸とし差分を成分とする差分ベクトルを生成する。また、校正規則作成部20が、差分ベクトルが生成された要素について差分ベクトルを反転させ、当該反転させたベクトルと他の要素の差分ベクトルとが一致又は近似するときに、当該要素と当該他の要素とで校正規則を作成する。そして、表示処理部21及び辞書登録部22が当該校正規則を出力する。
【選択図】 図1

Description

本発明は、文書の校正作業を支援する技術に関する。
文書中の誤りや不適切な表現等を適切な内容に修正する校正作業を支援する技術が、一般的に提供されている。かかる技術の一例として、ユーザが行った校正が所定の誤り検出規則に適している場合に、当該校正内容を、校正前後の語を対応づけた辞書に自動登録する技術がある。
また、このように特定の語を別の語に変換するための辞書を自動登録する技術としては、ナビゲーション用音声認識システムにおいて、ユーザによる言い換えが頻繁になされる語彙を辞書に登録する技術がある。この技術では、ユーザにより語彙の言い換えがなされたときに、その言い換え内容を示す情報がログとして蓄積される。そして、かかるログに蓄積された情報から、言い換えの頻度が多い語彙が抽出され、辞書に登録される。
さらには、特定の語を別の語に変換する作業を支援する技術として、ユーザにより翻訳対象として入力された語の訳語を推定する技術がある。この技術では、既に行われた翻訳につき、原文と訳文とが一対一で対応付けられた対訳文が蓄積されており、入力された翻訳対象となる語を含む翻訳前の文に対応する翻訳後の文が全て抽出され、形態素解析及びチャンク解析される。そして、解析結果におけるn−gram単語列の出現回数に基づき、n−gram単語列に含まれる単語から訳語が推定される。
特開平9−16597号公報 特開2007−280122号公報 特開2007−213005号公報
ここで、すでに校正の対象となった文書においてなされた校正内容は、例えば文書作成等を行うユーザにとって、有益な情報となり得る。しかし、当該文書における校正箇所が不明である場合、ユーザが自ら文書から校正箇所を探し出して校正規則を抽出するには、時間や労力を要する。
一方、上述の従来技術のうち、ユーザが行った校正内容を辞書に自動登録する技術や言い換えが頻繁になされる語彙を辞書に登録する技術等は、校正内容や言い換えがなされた内容が予め特定されていることを前提として処理を行う技術である。また、翻訳対象として入力された語の訳語を推定する技術においても、まず翻訳対象とする語がユーザにより入力されて特定されることが前提である。さらに、当該技術では、原文と訳文とが一対一で対応付けられていることが前提である。このため、例えば、校正によって章立てや文の入れ替えなどがなされ、校正前と校正後の文が一対一で対応付けられない文書の場合には、例えば文の位置関係の対応付け等を行わなければ、当該技術を適用することは困難である。
したがって、このような従来技術を用いたとしても、文書における校正箇所自体がそもそも特定されていないような場合、その文書に対してなされた校正における校正規則を文
書から容易に抽出することができなかった。
以上のような問題点に鑑み、本技術は、すでに校正対象となった文書における校正規則を、文書から自動抽出できるようにすることを目的とする。
本技術は、校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する。そして、出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する。さらに、差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定する。また、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する。
本技術によれば、すでに校正対象となった文書における校正規則が、文書から自動抽出される。
校正支援装置の全体構成の一例の説明図である。 校正支援処理の概要の一例を示すフローチャートである。 文書解析処理の一例を示すフローチャートである。 頻度算出処理の一例を示すフローチャート(第1実施例)である。 対象特定処理の一例を示すフローチャートである。 差分算出処理の一例を示すフローチャート(第1実施例)である。 校正規則抽出処理の一例を示すフローチャートである。 表示処理の一例を示すフローチャートである。 辞書登録処理の一例を示すフローチャートである。 要素記憶部のデータの一例を示す説明図である。 共起記憶部のデータの一例を示す説明図である。 頻度記憶部のデータの一例を示す説明図(第1実施例)である。 頻度記憶部のデータの一例を示す説明図(第1実施例)である。 対象記憶部のデータの一例を示す説明図である。 差分記憶部のデータの一例を示す説明図(第1実施例)である。 差分記憶部のデータの一例を示す説明図(第1実施例)である。 差分ベクトルを図式化した例を示す説明図である。 校正規則記憶部のデータの一例を示す説明図である。 校正辞書データベースのデータの一例を示す説明図である。 文書解析処理の一例を示すフローチャート(第2実施例)である。 頻度記憶部のデータの一例を示す説明図(第2実施例)である。 差分記憶部のデータの一例を示す説明図(第2実施例)である。 校正規則抽出処理の一例を示すフローチャート(第3実施例)である。 ベクトル調整処理の一例を示すフローチャートである。 校正前文書の一例を示す説明図である。 校正後文書の一例を示す説明図である。 校正前文書及び校正後文書における要素の出現頻度の一例を示す説明図である。 差分ベクトルの成分の一例を示す説明図である。 校正支援プログラムを実行するコンピュータの構成の一例の説明図である。
[第1実施例]
以下、第1実施例に係る校正支援装置について説明する。この校正支援装置は、文書校正がなされる前の状態である校正前文書、及び、当該校正前文書に対して文書校正がなされた後の状態である校正後文書を入力とする。そして、校正支援装置は、校正前文書及び校正後文書に基づき、校正前の要素と校正後の要素との組合せを抽出して校正規則を抽出し、抽出した校正規則を出力する。
図1は、校正支援装置の一例の全体構成図である。校正支援装置は、入力部1、文書記憶部2、処理情報記憶部3、制御部4、表示部5及び校正辞書記憶部6を有する。
入力部1は、各種の入力を受け付ける装置であり、例えば、キーボード、マウス、タッチパネル、マイク等である。ユーザは、入力部1を介して、校正前文書7及び校正後文書8を指定し、校正規則を抽出する指示を入力することができる。
文書記憶部2は、校正前文書7及び校正後文書8の電子データ(例えばテキストファイル等)が夫々格納された記憶手段である。
処理情報記憶部3は、制御部4における処理で用いる情報が格納される記憶手段であり、要素記憶部9、共起記憶部10、頻度記憶部11、対象記憶部12、差分記憶部13及び校正規則記憶部14を有する。なお、要素記憶部9、共起記憶部10、頻度記憶部11、対象記憶部12、差分記憶部13及び校正規則記憶部14に格納される具体的なデータ構造等の例については、後述の具体例を用いた説明において示す。
制御部4は、入力部1、文書記憶部2、処理情報記憶部3、表示部5及び校正辞書記憶部6と協働して校正支援処理を行う制御機構である。制御部4は、校正前文書7及び校正後文書8を入力とし、校正前文書7及び校正後文書8から校正規則を抽出して、表示部5及び校正辞書記憶部6に出力する処理を行う。制御部4は、文書読出部15、文書解析部16、頻度算出部17、対象特定部18、差分算出部19、校正規則抽出部20、表示処理部21及び辞書登録部22を有する。
文書読出部15は、入力部1が受け付けたユーザによる操作指示に従い、文書記憶部2に格納された校正前文書7及び校正後文書8を夫々読み出す。
文書解析部16は、文書読出部15により読み出された校正前文書7及び校正後文書8をそれぞれ解析し、所定の単位で区切られた要素に分割する。所定の単位とは、例えば、文字単位、単語単位、句単位、文単位等である。そして、文書解析部16は、文書が分割された結果としての各要素を、要素記憶部9に格納する。
なお、文書の解析を行う具体的な手法としては、例えば、形態素解析等が挙げられる。このような解析手法は一般に用いられているものであり、例えば、特開昭61−040671号公報に記載の単語分割処理方法や、特開平2−230370号公報に記載の形態素解析装置等で実現することができる。
また、文書解析部16は、校正前文書7及び校正後文書8の夫々における各要素の共起関係を抽出し、共起記憶部10に格納する。なお、共起関係とは、文書中に複数の要素が共に出現する(同時に用いられる)関係をいう。ここでは、共起関係として、各要素の前に連続して出現する要素を含むn−gram及び各要素の後に連続して出現する要素を含
むn−gramを夫々抽出する。「要素の前に連続して出現する要素を含むn−gram」とは、「要素」及び「当該要素の前に連続して出現する1個以上(n−1個)の要素が出現順に並べられた集合」を含む、合計n個の要素の組合せである。同様に、「要素の後に連続して出現する要素を含むn−gram」とは、「要素」及び「当該要素の後に連続して出現する1個以上(n−1個)の要素が出現順に並べられた集合」を含む、合計n個の要素の組合せである。nは2以上の整数であればいくつであってもよい。なお、以下の説明では、「(要素の)前に連続して出現する要素を含むn−gram」を「(要素の)前n−gram」と略記し、「(要素の)後に連続して出現する要素を含むn−gram」を「(要素の)後n−gram」と略記する。
頻度算出部17は、要素記憶部9に格納された各要素につき、共起記憶部10に格納された共起関係に基づいて、校正前文書7及び校正後文書8の夫々における共起関係の出現頻度(出現回数)を算出する。具体的には、頻度算出部17は、校正前文書7及び校正後文書8の夫々について、要素記憶部9に含まれる各要素の前n−gramの出現頻度及び後n−gramの出現頻度を夫々カウントする。そして、頻度算出部17は、カウントした出現頻度を、頻度記憶部11に格納する。
対象特定部18は、校正前文書7における共起関係を構成する要素を次元軸とし、当該共起関係の出現頻度を成分とした校正前頻度ベクトルを生成する。さらに、対象特定部18は、校正後文書8における共起関係を構成する要素を次元軸とし、当該共起関係の出現頻度を成分とした校正後頻度ベクトルを生成する。具体的には、対象特定部18は、校正前文書7につき、各要素の前n−gram及び後n−gramを構成する要素を次元軸とし、頻度記憶部11に格納された前n−gramの出現頻度及び後n−gramの出現頻度を成分とした校正前頻度ベクトルを作成する。同様に、対象特定部18は、校正後文書8につき、各要素の前n−gram及び後n−gramを構成する要素を次元軸とし、頻度記憶部11に格納された前n−gramの出現頻度及び後n−gramの出現頻度を成分とした校正後頻度ベクトルを作成する。そして、対象特定部18は、各要素につき、校正前頻度ベクトル及び校正後頻度ベクトルの近似値を算出し、両頻度ベクトルが一致及び近似しない要素のみを校正対象の要素として抽出して、対象記憶部12に格納する。なお、このように頻度ベクトルの近似値に基づいて校正対象であるか否かを判断するのは、校正対象でない要素の場合、原則として、その要素を含むn−gramの出現頻度は校正前と校正後とで殆ど変化しない(即ち、校正前頻度ベクトル及び校正後頻度ベクトルが一致若しくは近似する)ということに着目したものである。そして、対象特定部18は、後続の各処理における処理対象を、文書に含まれる全要素のうち、校正規則の抽出対象となり得る要素のみに絞り込む役割を果たす。
差分算出部19は、対象記憶部12に含まれる各要素について、校正後文書8における共起関係の出現頻度から校正前文書7における共起関係の出現頻度を差し引いた差分を算出し、当該共起関係を構成する要素を次元軸とし差分を成分とする差分ベクトルを生成する。具体的には、差分算出部19は、対象記憶部12に含まれる各要素について、前n−gramの出現頻度及び後n−gramの出現頻度の、校正前文書7及び校正後文書8における差分を夫々算出する。この差分は、各要素の前n−gramの出現頻度及び後n−gramの出現頻度が、校正前文書7と校正後文書8とでどのように変化したかを示すものである。そして、頻度算出部17は、各要素の前n−gramの出現頻度の差分及び後n−gramの出現頻度の差分を、差分記憶部13に格納する。また、差分算出部19は、各要素の前n−gramを構成する要素及び後n−gramを構成する要素を次元軸とし、前n−gramの出現頻度の差分及び後n−gramの出現頻度の差分を成分とした差分ベクトルを生成する。
校正規則抽出部20は、差分を算出した要素間で、要素夫々の差分が一定の関係にある
要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する。具体的には、校正規則抽出部20は、各要素の差分ベクトルを反転させ、当該反転させたベクトルと、他の要素の差分ベクトルと、の近似値を算出する。ここで、校正規則抽出部20がこのように各要素の差分ベクトルを反転させて他の要素の差分ベクトルとの近似値を算出するのは、次の理由による。即ち、ある要素が別の要素に校正された場合、校正前後において、校正前の要素を含んだn−gramの出現頻度の差分(減少量)と、校正後の要素を含んだn−gramの出現頻度の差分(増加量)と、は対応関係にある可能性が高い。このとき、校正前の要素の差分ベクトルと校正後の要素の差分ベクトルとは、ベクトルの大きさが一致若しくは近似し、方向が反対方向となる。このため、いずれか一方の差分ベクトルを反転させることにより、両ベクトルは方向及び大きさともに一致若しくは近似するベクトルとなる。そして、このようにある要素の差分ベクトルを反転させたベクトルと他の要素の差分ベクトルとが一致若しくは近似する場合には、両要素が校正前及び校正後の校正規則をなす組合せである可能性が高いということになる。
そして、校正規則抽出部20は、ベクトルが一致若しくは近似する2つの要素を1つの校正組合せとする。さらに、校正規則抽出部20は、校正組合せとした2つの要素のうち、生成された差分ベクトルが正方向を向いている要素を校正後の要素とし、差分ベクトルが負方向を向いている要素を校正前の要素として、校正規則を抽出する。換言すれば、校正規則抽出部20は、校正組合せとした2つの要素のうち、校正後のほうが校正前よりもn−gramの出現頻度が増加している要素を校正後の要素とし、校正後のほうが校正前よりもn−gramの出現頻度が減少している要素を校正前の要素として、校正規則を抽出する。さらに、校正規則抽出部20は、抽出した校正規則を校正規則記憶部14に格納する。
なお、対象特定部18や差分算出部19で行っているベクトル同士の近似値の算出には、ベクトル空間モデルにおけるベクトル間の近似値の算出方式を用いることができる。ベクトル空間モデルとは、検索対象文書と検索要求それぞれを、キーワードを次元軸とし、キーワードの出現頻度を成分としたベクトルとみなし、そのベクトル間の距離により、類似度(近似値)を算出する方式である。ベクトル空間モデルでは、文書の要素をベクトルにより表現し、例えば、近似値を2つのベクトルのcosineとする。この場合、近似値が1であればベクトルが一致していることを意味し、近似値が低いほど類似度が低いことを意味する。かかる近似値の算出方法において、ベクトル同士が「近似している」と判定するにあたり妥当な基準値としては、例えば、近似値が0.8以上の場合、とすることができる。ベクトル空間モデルにおける近似値の算出方式については、例えば「Salton, G.著 "Automatic Text Processing: the transformation, analysis, and retrieval of information by computer"、1989年、Addison-Wesley Publishing 発行」等に記載されている。
表示処理部21は、校正規則抽出部20が抽出した校正規則を、表示部5に表示させる。
辞書登録部22は、校正規則抽出部20が抽出した校正規則を、校正辞書記憶部6の校正辞書データベース23に登録する。
表示部5は、制御部4による処理の結果として出力される校正規則を表示する装置であり、例えば、ディスプレイ等である。
校正辞書記憶部6は、制御部4による処理の結果として出力される校正規則を登録する校正辞書データベース23が格納される記憶手段である。
次に、制御部4において行われる校正支援処理を、図2〜図9に示すフローチャートを用いて説明する。
図2は、校正支援処理の概要を示すフローチャートである。当該校正支援処理は、入力部1が、ユーザによる操作指示を受け付けたときに実行される。
ステップ1では、文書読出部15が、文書記憶部2から、ユーザにより指定された校正前文書7及び校正後文書8を読み出す。ステップ2では、文書解析部16が、文書解析処理を実行し、ステップ3では、校正対象推定部が、校正対象推定処理を実行する。ステップ4では、校正規則抽出部20が、校正規則抽出処理を実行する。ステップ5では、表示処理部21が、表示処理を実行し、ステップ6では、辞書登録部22が、辞書登録処理を実行する。
図3は、文書解析部16が実行する文書解析処理を示すフローチャートである。
以下のステップ11〜13は、校正前文書7及び校正後文書8の夫々について行われる処理(ループ処理A)である。
ステップ11では、文書解析部16が、文書読出部15により読み出された文書(以下、フローチャートのループ処理の説明において単に「文書」という場合には、処理対象となる校正前文書7及び校正後文書8のいずれか一方を示す。)の夫々について解析を行い、文書を所定の単位で区切られた要素に分割する。
ステップ12では、文書解析部16が、文書の解析により文書が分割された結果としての各要素を、重複を排除しつつ要素記憶部9に格納する。
ステップ13では、文書解析部16が、文書に含まれるn−gramを抽出し、共起記憶部10に格納する。
図4は、頻度算出部17が実行する頻度算出処理を説明するフローチャートである。
以下のステップ21〜ステップ23は、校正前文書7及び校正後文書8の夫々を処理対象として行われる処理(ループ処理B)であり、さらに、要素記憶部9に格納された要素の夫々を処理対象として行われる処理(ループ処理C)である。
ステップ21では、頻度算出部17が、共起記憶部10から、文書における各要素の前n−gram及び後n−gramを夫々抽出する。
ステップ22では、頻度算出部17が、抽出した各要素の前n−gramが文書に出現する出現頻度及び後n−gramが文書に出現する出現頻度を、夫々カウントする。そして、頻度算出部17は、各n−gramに含まれる要素及びカウントした頻度を、頻度記憶部11に格納する。
図5は、対象特定部18が実行する対象特定処理を説明するフローチャートである。
以下のステップ31は、校正前文書7及び校正後文書8の夫々を処理対象として行われる処理(ループ処理D)であり、さらに、要素記憶部9に格納された要素の夫々を処理対象として行われる処理(ループ処理E)である。
ステップ31では、対象特定部18が、要素の前n−gramを構成する要素及び後n−gramを構成する要素を次元軸とし、頻度記憶部11に格納された前n−gramの出現頻度及び後n−gramの出現頻度を成分とした頻度ベクトルを生成する。ここでの「要素の前n−gramを構成する要素」は、前n−gramに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の前に連続して出現する要素(群)を指す。同様に、「要素の後n−gramを構成する要素」は、後n−gramに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の後に連続して出現する要
素(群)を指す。この頻度ベクトルを表すデータは、頻度記憶部11に格納された、前n−gramの出現頻度及び後n−gramの出現頻度の両方をベクトル成分としたデータである。
以下のステップ32〜ステップ34は、要素記憶部9に格納された要素の夫々について行われる処理(ループ処理F)である。
ステップ32では、対象特定部18が、上記ステップ31で生成された頻度ベクトルにつき、ベクトル空間モデルに基づいて、校正前文書7における頻度ベクトル(校正前頻度ベクトル)と校正後文書8における頻度ベクトル(校正後頻度ベクトル)との近似値を算出する。ここで、例えば、処理対象の要素が文書において全く出現しない場合には、頻度ベクトルが生成されないこととなる。このように、近似値を算出する対象となる頻度ベクトルが存在しない場合には、近似値を0とすればよい。なお、この対象特定処理の説明において、以下、校正前文書7における頻度ベクトルをV1とし、校正後文書8における頻度ベクトルをV2とする。
ステップ33では、対象特定部18が、V1及びV2の近似値が閾値以下であるか否か、即ち、V1及びV2が近似していないかを判定する。なお、この閾値はユーザが予め記憶装置に任意に設定しておくことができる。閾値の具体例としては、例えば、近似しているか否かを判定するのに妥当な基準値である0.8程度と設定しておくこともできるし、頻度ベクトルが著しく異なるもののみを抽出したい場合には、閾値をさらに小さく設定しておいてもよい。対象特定部18は、近似値が閾値以下であれば、ステップ34に進む一方、近似値が閾値よりも大きければ、次の要素を処理対象としてループ処理Fの処理を続行する。
ステップ34では、処理対象の要素を校正対象として特定し、対象記憶部12に格納する。なお、対象記憶部12は、要素記憶部9と同様のデータ構造であり、そのデータ内容は、要素記憶部9に格納された要素のうち、校正対象として特定された要素のみに限定されたものとなる。
図6は、差分算出処理を説明するフローチャートである。
以下のステップ41〜ステップ43は、対象記憶部12に格納された校正対象要素の夫々を処理対象として行われるループ処理(ループ処理G)である。
ステップ41では、差分算出部19が、校正前文書7及び校正後文書8の夫々について、要素の前n−gramの出現頻度及び後n−gramの出現頻度を、頻度記憶部11から抽出する。
ステップ42では、差分算出部19が、要素の前n−gram及び後n−gramの夫々について、校正後文書8における出現頻度から校正前文書7における出現頻度を差し引いた差分を算出する。そして、差分算出部19は、各n−gramに含まれる要素及び算出した差分を、差分記憶部13に格納する。
ステップ43では、差分算出部19が、要素の前n−gramを構成する要素を次元軸とし、前n−gramの出現頻度の差分を成分とする一方、要素の後n−gramを構成する要素を次元軸とし、後n−gramの出現頻度の差分を成分とする差分ベクトルを生成する。なお、ここでの「要素の前n−gramを構成する要素」も、前n−gramに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の前に連続して出現する要素(群)を指す。同様に、「要素の後n−gramを構成する要素」も、後n−gramに含まれる要素のうち、処理対象の要素以外の要素、即ち、処理対象の要素の後に連続して出現する要素(群)を指す。この差分ベクトルを表すデータは、差分記憶部
13に格納された、要素の前n−gramの出現頻度の差分及び要素の後n−gramの出現頻度の差分の両方をベクトル成分としたデータである。
図7は、校正規則抽出処理を説明するフローチャートである。
ステップ51〜ステップ54は、対象記憶部12に格納された校正対象要素の夫々を処理対象として行われるループ処理(ループ処理H)である。
ステップ51では、校正規則抽出部20が、処理対象の校正対象要素について上記ステップ43で生成された差分ベクトルを、反転させる。差分ベクトルを反転させるとは、換言すれば、差分ベクトルの全ての成分に「−1」を乗算することである。なお、この校正規則抽出処理の説明上、ステップ51で処理対象とした校正対象要素を要素Aとし、要素Aの差分ベクトルを反転させたベクトルをV1とする。
ステップ52〜ステップ54は、対象記憶部12に格納された校正対象要素のうち、要素A以外の校正対象要素の夫々を処理対象として行われるループ処理(ループ処理I)である。なお、この校正規則抽出処理の説明上、ステップ52〜ステップ54で処理対象とする要素A以外の校正対象要素を要素Bとし、要素Bの差分ベクトルをV2とする。
ステップ52では、校正規則抽出部20が、ベクトル空間モデルに基づいて、V1及びV2の近似値を算出する。
ステップ53では、校正規則抽出部20が、V1及びV2の近似値が閾値以上か否か、即ち、V1及びV2が一致若しくは近似しているかを判定する。なお、この閾値はユーザが予め任意に設定しておくことができる。閾値の具体例としては、上述のように、近似しているか否かの判定に用いる基準となる値として、例えば0.8程度としておくことができ、また、閾値が低く設定されればされるほど、広範囲(多数)の要素について校正規則が抽出されることとなる。校正規則抽出部20は、近似値が閾値以上であれば、ステップ54に進む一方、近似値が閾値よりも小さければ、次の校正対象要素を処理対象としてループ処理Iの処理を続行する。
ステップ54では、校正規則抽出部20が、要素A及び要素Bを、校正規則を抽出する要素の組合せとして決定する。
ステップ55では、校正規則抽出部20が、V2が正方向を向いているか否か、即ち、要素Bの差分ベクトルが正方向を向いているか否かを判定する。この判定は、換言すれば、要素Bを含むn−gramが校正前文書7よりも校正後文書8において増加しているか否かを判定するものである。対象特定部18は、V2が正方向を向いていれば、ステップ56に進む一方(Yes)、V2が正方向を向いていなければ、ステップ57に進む(No)。なお、V2が正方向を向いていない場合、要素Aの差分ベクトル(即ち、V1の反転前のベクトル)が正方向を向いていることとなり、要素Aを含むn−gramが校正前文書7よりも校正後文書8において増加していることになる。
ステップ56では、校正規則抽出部20が、要素Aを校正前の要素、要素Bを校正後の要素として校正規則を抽出し、校正規則記憶部14に格納する。この校正規則は、即ち、「要素Aを要素Bに校正する」ことを示すものである。
ステップ57では、校正規則抽出部20が、要素Bを校正前、要素Aを校正後として校正規則を抽出し、校正規則記憶部14に格納する。この校正規則は、即ち、「要素Bを要素Aに校正する」ことを示すものである。
なお、上記ステップ56及びステップ57では、校正規則抽出部20は、抽出した校正規則がすでに校正規則記憶部14に格納されている場合には、重複登録を防ぐため、校正
規則記憶部14に登録をしないものとする。
図8は、表示処理を説明するフローチャートである。
以下のステップ61は、校正規則記憶部14に格納された校正規則の夫々について行われるループ処理(ループ処理J)である。
ステップ61では、表示処理部21が、表示部5に、校正規則記憶部14に格納された校正規則を表示させる。
図9は、辞書登録処理を説明するフローチャートである。
以下のステップ71は、校正規則記憶部14に格納された校正規則の夫々について行われるループ処理(ループ処理K)である。
ステップ71では、辞書登録部22が、校正辞書データベース23に対し、校正規則記憶部14に格納された校正規則を登録する。
かかる校正支援装置の処理動作によれば、校正前文書及び校正後文書に基づいて、文書に対してどのような校正がなされたか、即ち、当該文書における校正規則が抽出される。そして、抽出された校正規則が表示部に表示され、ユーザに提示される。このため、文書を作成しようとするユーザは、自ら校正前文書と校正後文書とを比較し、どのような校正がなされたかを探し出さなくて済むようになる。そして、このように、ユーザが校正規則を容易に知ることができることで、文書作成の効率化を図ることができる。特に、例えば、ユーザが、作成しようとする文書と専門分野や内容が近い他の文書を選択して本技術を用いれば、ユーザは文書作成のために特に有益な情報を得ることができる。また、本校正支援装置では、校正前文書及び校正後文書の文の対応関係に関係なく、各要素のn−gramの出現頻度につき、校正前後における差分を比較して校正規則を抽出する。したがって、例えば、校正によって章立てや文の入れ替えなどがなされ、校正前と校正後の文が一対一で対応付けられない文書からでも、校正前後の文の位置関係等を考慮することなく、校正規則を抽出することができる。
さらに、校正規則が校正辞書データベース23に登録されることで、ユーザは、後のタイミングにおいても、校正辞書データベース23に蓄積された校正規則を適宜参照することが可能となる。また、このような校正辞書の校正規則エントリをユーザが手入力により登録する手間も省かれることとなる。さらに、このように蓄積された校正規則は、例えば、校正処理を自動で行うシステムにおいても利用することが可能である。
なお、表示処理部21による表示処理及び辞書登録部22による辞書登録処理は、必ずしも両方行う必要はなく、いずれか一方のみを行ってもよい。さらに、校正規則の出力方法は、表示処理や辞書登録処理に限らず、ユーザが認識可能なあらゆる出力方法を用いることができる。かかる出力方法として、例えば、印刷装置から校正規則を印刷するようにしてもよい。
また、上記対象特定部18による対象特定処理は、校正対象外である要素を後続の処理対象から除外することで、処理量を抑えることができる役割を果たしている。しかしながら、当該処理を行わなくても、校正前文書7及び校正後文書8から校正規則を抽出することは可能である。この場合、差分算出処理や校正規則抽出処理においても、原則として要素記憶部9に格納された要素全体を処理対象とすることとなる。
さらに、上記校正支援処理の実行開始条件は、入力部1を介したユーザによる操作指示に限らず、例えば、予め設定されたジョブ等であってもよい。また、上述の校正支援処理では、1組の校正前文書及び校正後文書のみを処理対象としていたが、例えば、記憶手段
に複数組の校正前文書及び校正後文書を蓄積しておき、これらの複数組の校正前文書及び校正後文書に対し連続してバッチ処理を行ってもよい。そうすれば、複数組の校正前文書及び校正後文書で行われた校正の内容がまとめて出力されることとなり、特に、校正対象の文書が多数ある場合に、処理の効率化を図ることができる。
ここで、ベクトルの近似値の算出において、上記実施例では、対象特定部18が、要素の前n−gramの出現頻度及び後n−gramの出現頻度の「両方」を成分とした頻度ベクトルを、校正前文書7及び校正後文書8の両方について生成している。そして、対象特定部18は、かかる校正前文書7における頻度ベクトルと校正後文書8における頻度ベクトルとの近似値を算出している。しかし、かかる方法に限らず、例えば、前n−gramの出現頻度を成分とした頻度ベクトルと、後n−gramの出現頻度を成分とした頻度ベクトルと、を「別々に」生成してもよい。そして、前n−gramの出現頻度を成分とした頻度ベクトルと、後n−gramの出現頻度を成分とした頻度ベクトルと、の夫々について、別々に、校正前文書7における頻度ベクトルと校正後文書8における頻度ベクトルとの近似値を算出してもよい。さらに、前n−gramの出現頻度を成分とした頻度ベクトルの近似値及び後n−gramの出現頻度を成分とした頻度ベクトルの近似値の平均値を算出し、当該平均値を、ステップ33の判定基準とする近似値としてもよい。このようにしても、要素の前n−gramの出現頻度及び後n−gramの出現頻度の両方を反映させた近似値を算出することが可能である。同様に、差分算出部19においても、前n−gramの出現頻度の差分ベクトルと、後n−gramの出現頻度の差分ベクトルと、を別々に生成し、夫々の差分ベクトルを用いて算出した近似値の平均値を、ステップ53の判定基準とする近似値としてもよい。
なお、文書解析部16は、文書の解析において、分割結果としての単語、句、文等とともに、解析情報を付与することもできる。解析情報とは、例えば、品詞(単語の場合、「名詞」「固有名詞」「動詞」等、句の場合は「名詞句」「動詞句」「形容詞句」等)、単語の種類(自立語、非自立語)、係り受け、意味属性(生物、非生物、抽象物等)等を含む情報である。ここで、かかる解析情報を付す場合について、簡単な文の一例を用いて説明する。例えば、「以下の発癌性試験を行った。」という文書を、単語単位で分割して解析情報を付与した場合、「以下[名詞]/の[助詞]/発癌性試験[名詞,自立語]/を[助詞,
対象格]/行っ[動詞語幹,自立語]/た[動詞活用語尾,終止形]/。[句点]」となる。なお
、「/」は要素間の区切りを示す。また、当該文書を、句単位で分割して解析情報を付与した場合、「[以下の[自立語=以下]/発癌性試験を[自立語=発癌性試験]/行った[自立語=行っ]]」となる。さらに、当該句の係り受け情報としては、「以下の」が「発癌性試験を」に係り、「発癌性試験を」が「行った」に係る。
そして、このように解析情報を付与した場合、文書解析部16は、特定の解析情報が付された要素のみを要素記憶部9に格納してもよい。例えば、名詞の単語についてのみ校正規則を抽出する場合、文書解析部16は、ステップ11において文書を単語単位で分割するとともに品詞の解析情報を付与し、ステップ12において名詞のみを要素記憶部9に格納すればよい。そうすれば、後続の各処理において、他の品詞の要素を処理対象から除外することができ、無駄な処理を省くことができる。
また、上記説明では、要素の前n−gram及び後n−gramの両方に基づいて校正規則を抽出しているが、要素の前n−gram及び後n−gramのいずれか一方に基づいて校正規則を抽出してもよい。この場合には、要素の前n−gram及び後n−gramの両方に基づいて校正規則を抽出する場合と比べ、抽出精度は下がる可能性があるが、上記校正支援処理全体に要する処理量を抑えることができる。特に、頻度ベクトルや差分ベクトルの次元数が少なくなるため、近似値の算出に要する計算量を抑えることができる。
また、頻度算出処理において、n−gramに含まれる要素のうち、自立語で活用している単語があれば、見出し語や特定の活用形に修正するようにしてもよい。そのようにすれば、本来同一のものとして処理すべき単語については、文書中における個別具体的な活用による相違を吸収し、同一の単語として処理をすることができる。
次に、上述の校正支援処理について、データ例を用いて具体的に説明する。ここでは、「発癌性試験」という単語を、「がん原性試験」に置き換える校正が行われた文書を処理対象とする場合を想定する。
図10は、文書解析部16が、校正前文書7及び校正後文書8の夫々を単語単位で分割し、かつ、品詞が名詞である単語のみを要素記憶部9に格納した場合における、要素記憶部9のデータ例を示す。また、図11は、共起記憶部10のデータ例を示し、図11(A)は、校正前文書7の2−gram、図11(B)は、校正後文書8における2−gramを示す。
頻度算出部17は、校正前文書7及び校正後文書8の夫々について、要素記憶部9に記憶されたこれらの単語の夫々につき、共起記憶部10を参照し、前2−gramの出現頻度及び後2−gramの出現頻度をカウントする。ここで、当該カウントの結果、校正前文書7において、[発癌性試験]の前2−gramとして、[の][発癌性試験]という2−gramが35個、[が][発癌性試験]という2−gramが29個、[総合][発癌性試験]という2−gramが7回出現しているとする。また、校正前文書7において、[発癌性試験]の後2−gramとして、[発癌性試験][および]という2−gramが8個、[発癌性試験][が]という2−gramが9個、[発癌性試験][で]という2−gramが30回出現しているとする。一方、校正後文書8では、[発癌性試験]を含む2−gramが全く出現していないとする。図12(A)は、かかる場合において頻度記憶部11に格納されるデータのうち、校正前文書7における「発癌性試験」の前2−gramの出現頻度を示すデータである。一方、図12(B)は、頻度記憶部11に格納されるデータのうち、校正前文書7における「発癌性試験」の後2−gramの出現頻度を示すデータである。
また、上記頻度算出部17におけるカウントの結果、校正後文書8において、[がん原性試験]の前2−gramとして、[の][がん原性試験]という2−gramが35個、[が][がん原性試験]という2−gramが29個、[総合][がん原性試験]という2−gramが7回存在しているとする。一方、校正後文書8において、[がん原性試験]の後2−gramとして、[がん原性試験][および]という2−gramが8個、[がん原性試験][が]という2−gramが9個、[がん原性試験][で]という2−gramが30回出現しているとする。一方、校正前文書9では、[がん原性試験]を含む2−gramが全く出現していないとする。図13(A)は、かかる場合において頻度記憶部11に格納されるデータのうち、校正後文書8における[がん原性試験]の前2−gramの出現頻度を示すデータである。一方、図13(B)は、頻度記憶部11に格納されるデータのうち、校正後文書8における[がん原性試験]の後2−gramの出現頻度を示すデータである。
そして、対象特定部18では、[発癌性試験]の前n−gramを構成する要素を次元軸とし、前n−gramの出現頻度を成分とする一方、[発癌性試験]の後n−gramを構成する要素を次元軸とし、後n−gramの出現頻度を成分とする頻度ベクトルを生成する。具体的には、[発癌性試験]の校正前文書7の頻度ベクトルは、次のようなベクトルとなる。即ち、前n−gramとして、[の]の次元軸の成分が35、[が]の次元軸の成分が29、[総合]の次元軸の成分が7、後n−gramとして、[および]の次
元軸の成分が8、[が]の次元軸の成分が9、[で]の次元軸の成分が30の、6次元のベクトルとなる。一方、校正後文書8には、上記2−gramのいずれも出現しないため、ベクトルが生成されない。したがって、校正前文書7の頻度ベクトルと校正後文書8の頻度ベクトルは少なくとも近似しないこととなり、対象特定部18は、[発癌性試験]を、校正対象の単語として対象記憶部12に格納する。また、同様に、[がん原性試験]の校正前文書7及び校正後文書8の頻度ベクトルも近似しないため、対象特定部18は、[がん原性試験]を、校正対象の要素とし、対象記憶部12に格納する。この文書において、対象特定部18が校正対象の要素として特定した要素が、仮に[発癌性試験]及び[がん原性試験]の2つのみであった場合、対象記憶部12のデータは、図14のようになる。
そして、差分算出部19は、対象記憶部12に格納された[発癌性試験]につき、頻度記憶部11を参照して、校正後文書8における2−gramの出現頻度から校正前文書7における2−gramの出現頻度を差し引いた差分を算出し、差分記憶部13に格納する。図15は、差分記憶部13のデータ例であり、図12のデータに対して、[発癌性試験]の前2−gram及び後2−gramの成分の差分を夫々算出した結果である。また、同様に、図16は、図13のデータに対して、[がん原性試験]の前2−gram及び後2−gramの成分の差分を夫々算出した結果である。そして、差分算出部19は、[発癌性試験]の前2−gramを構成する単語を次元軸とし、前2−gramの出現頻度を成分とする一方、[発癌性試験]の後2−gramを構成する単語を次元軸とし、後2−gramの出現頻度の差分を成分とした差分ベクトルを生成する。
さらに、校正規則抽出部20は、対象記憶部12に格納された[発癌性試験]につき、その差分ベクトルを反転させる。そして、校正規則抽出部20は、当該反転させたベクトルと、同じく対象記憶部12に格納された[がん原性試験]の差分ベクトルとの近似値を算出する。
ここで、図17は、[発癌性試験]の差分ベクトル及び[がん原性試験]の差分ベクトルを図式化したものである。なお、図17では、ベクトルを視覚的にわかりやすくするため、[発癌性試験]及び[がん原性試験]の前2−gramの出現頻度の差分のみを成分とした3次元のベクトルとして示すこととする。破線のベクトルが[発癌性試験]の差分ベクトルであり、実線のベクトルが[がん原性試験]の差分ベクトルである。このように、[発癌性試験]の差分ベクトルは、[の]の次元軸の成分が−35、[が]の次元軸の成分が−29、[総合]の次元軸の成分が−7のベクトルであり、負方向(全ての成分がマイナス)を向いている。一方、[がん原性試験]の差分ベクトルは、[の]の次元軸の成分が35、[が]の次元軸の成分が29、[総合]の次元軸の成分が7であり、正方向(全ての成分がプラス)を向いている。ここで、[発癌性試験]の差分ベクトルを反転させる(即ち、全成分に−1を乗算する)と、[がん原性試験]の差分ベクトルと全成分が一致することとなる。この場合、近似値は最大の1となり、少なくとも近似するか否かの判断基準として設定する閾値以上となる。このため、校正規則抽出部20は、[発癌性試験]及び[がん原性試験]を校正組合せとする。
そして、上述したように、[発癌性試験]の差分ベクトルは負方向を向き、[がん原性試験]の差分ベクトルは正方向を向いている。このため、校正規則抽出部20は、[発癌性試験]を校正前、[がん原性試験]を校正後の要素として、校正規則を抽出し、図18に示すように、校正規則記憶部14に格納する。
さらに、表示処理部21がかかる校正規則を表示部20に表示させ、また、辞書登録部22がかかる校正規則を校正辞書記憶部6の校正辞書データベース23に登録する。なお、図19は、このように[発癌性試験]を校正前、[がん原性試験]を校正後の要素とし
た校正規則が登録された校正辞書データベース23のデータ例である。
[第2実施例]
次に、校正支援装置の第2実施例について説明する。第2実施例に係る校正支援装置は、第1実施例に比べて次の点で異なる。即ち、第1実施例では、文書における共起関係として、要素の前n−gram及び後n−gramを抽出し、要素の前n−gram及び後n−gramの出現頻度に基づいて処理を行った。かかるn−gramにおいては、要素の出現順が異なれば異なるn−gramであるという扱いとなるため、例えば、[A][B][C]の3−gramと、[B][A][C]の3−gramとは異なるものとして処理されていた。一方、第2実施例では、要素の前後に出現する複数要素を、出現順に依存しない集合として処理する。上記例の場合、第2実施例では、[C]を基準とすると、1番目の3−gramにおいて[C]の前に出現する[A][B]も、2番目の3−gramにおいて[C]の前に出現する[B][A]も、いずれも同じ{[A][B]}として処理される。以下、第1実施例と異なる点についてのみ説明する。
図20は、第2実施例における、文書解析処理を説明するフローチャートである。
以下のステップ81〜86は、校正前文書7及び校正後文書8の夫々について行われる処理(ループ処理L)である。
ステップ81〜83は、第1実施例のステップ11及び12と同様であるため、説明を省略する。
ステップ84では、文書解析部16が、抽出したn−gramから、各要素の前に連続して出現するn−1個の要素、及び、各要素の前に連続して出現するn−1個の要素を抽出する。
ステップ85では、文書解析部16が、各要素の前に連続して出現するn−1個の要素をソートする。同様に、文書解析部16は、各要素の後に連続して出現するn−1個の要素をソートする。なお、ソート規則は、全てのソート対象に対して同一の規則であれば、例えば昇順や降順など、どのような規則であってもよい。
ステップ86では、文書解析部16が、ステップ85でソートされた、各要素の前に出現するn−1個の要素を1つの集合とし、各要素と当該集合との組合せを、共起記憶部10に格納する。同様に、文書解析部16は、ソートされた、各要素の後に出現するn−1個の要素を1つの集合とし、各要素と当該集合との組合せを、共起記憶部10に格納する。
なお、以降の頻度算出処理、対象特定処理、差分算出処理、校正規則抽出処理においても、要素の前n−gramの代わりに、共起記憶部10に格納された、要素及び当該要素の前に出現するn−1個の要素の集合の組合せを用いて処理を行う。同様に、要素の後n−gramの代わりに、要素及び当該要素の後に出現するn−1個の要素の集合の組合せを用いて処理を行う。
かかる第2実施例の処理によれば、例えば、校正対象となった要素の前に出現する要素群又は後に出現する要素群において、単に要素の順番を入れ替えるだけの校正が行われた場合には、校正前後の要素群が同一のものとして処理される。
なお、第1実施例と同様に、頻度算出処理において、抽出した要素のうち、自立語で活用している単語があれば、見出し語や特定の活用形に修正した上で集合を抽出してもよい。
ここで、上記第2実施例における処理について、簡単な具体例を示して説明する。
例えば、校正前文書7が「目の前に広く青い海が広がった。」であり、校正後文書8が、「目の前に青く広い海原が広がった。」であった場合を想定する。ここで、校正前文書7及び校正後文書8が単語ごとに分割された場合、校正前文書7において「海」の前に連続して出現する2つの単語は、「広く」及び「青い」となる。一方、校正後文書8において「海原」の前に連続して出現する2つの単語は、「青く」及び「広い」となる。このとき、第1実施例において、「海」の前3−gramを見出し語に修正した上で抽出し、当該前3−gramの出現頻度をカウントした場合には、3−gramは[広][青][海]となり、頻度記憶部11は、図21(A)のようになる。一方、第2実施例において、「海」の前に連続して出現する2つの単語を、見出し語に修正した上で昇順ソートし、集合として処理した場合、頻度記憶部11は、図21(B)のようになる。即ち、第2実施例では、[広][青]の2つの単語が昇順ソートされ、{[青],[広]}の集合となる。同様に、校正後文書8について「海原」に着目すると、第1実施例では、「海原」の前3−gramは[広][青][海]となり、頻度記憶部11は、図21(C)のようになる。一方、第2実施例では、「海原」の前に連続して出現する2つの単語を集合として処理すると、図21(D)のようになる。即ち、第2実施例では、[広][青]の2つの単語が昇順ソートされ、{[青],[広]}の集合となる。そして、第1実施例では、差分算出処理において「海」「海原」の前3−gramについて校正前文書7及び校正後文書8における差分を算出した場合、夫々、図22(A)及び図22(B)のようになる。一方、第2実施例では、「海」「海原」の前の2つの単語の集合について校正前文書7及び校正後文書8における差分を算出した場合、夫々、図22(C)及び図22(D)のようになる。
このように、第1実施例では、校正前文書7における「海」の前3−gramと、校正後文書8における「海原」の前3−gramとは、図22(A)及び図22(B)からも明らかなように、「海」の前の単語群が「[広][青]」と「[青][広]」とで異なる。したがって、第1実施例では、差分ベクトルを生成した場合、「海」と「海原」とでは、次元軸が異なるベクトルが生成される。一方、第2実施例では、「海」の前に連続して出現する2つの単語の集合と、「海原」の前に連続して出現する2つの単語の集合は、図22(C)及び図22(D)からも明らかなように、いずれも{[青],[広]}で一致している。したがって、第2実施例では、差分ベクトルを生成した場合、「海」と「海原」とで、次元軸が同じ差分ベクトルが生成される。したがって、この場合、「海」の差分ベクトルを反転させたベクトルと「海原」の差分ベクトルとが一致するため、近似値は高くなる。このように、上記データ例のような場合、第1実施例では「海」及び「海原」が校正組合せとして抽出されない可能性が高いが、第2実施例では、抽出される可能性が高くなるという相違がある。
[第3実施例]
次に、校正支援装置の第3実施例について説明する。第3実施例に係る校正支援装置は、第1実施例や第2実施例に比べて次の点で異なる。即ち、第1実施例や第2実施例に係る校正支援装置は、原則として、校正前後において、校正前の要素を含んだn−gramの出現頻度の差分(減少量)と、校正後の要素を含んだn−gramの出現頻度の差分(増加量)と、は対応関係にある可能性が高いという前提で動作していた。例えば、校正によって全ての要素Aが要素Bに校正されたとすると、要素Aの減少数と要素Bの増加数は一致する。また、全ての要素Aについて要素Bへの校正がなされていなくても、要素Aから要素Bへの校正のみがなされ、要素Aから他の要素Xへの校正や他の要素Yから要素Bへの校正などがなければ、要素Aの減少数と要素Bの増加数は一致する。要素Aの減少数と要素Bの増加数が一致するということは、即ち、要素Aを含んだn−gramの出現頻度の減少量と、要素Bを含んだn−gramの出現頻度の差分の増加量に対応関係がある、ということである。
しかし、校正において、パラグラフなどのまとまった分量(以下、バルクという)の文
書の削除や追加があった場合、校正前の要素を含んだn−gramの出現頻度の減少量と、校正後の要素を含んだn−gramの出現頻度の増加量と、の対応関係は必ずしも成立しない。
そこで、第3実施例では、このように文書がバルク追加又はバルク削除されたときにも、校正規則を抽出できるようにする。
具体的には、第3実施例に係る校正支援装置は、校正対象となった要素以外の要素同士のn−gramの出現頻度が、文書のバルク追加又はバルク削除以外では原則として大きく変化をせず、また、校正対象となる要素が連続する確率も比較的低いという前提のもとに、次のような動作をする。即ち、ある要素A(第1要素)を含んだn−gramの出現頻度の校正前後の差分(即ち変動量(増加量又は減少量))との間で対応関係にある要素が抽出できない場合、要素Aとの間で対応関係にない要素B(第2要素)を選択する。そして、当該要素A及び要素Bの少なくともいずれか一方との間でn−gramを構成する各要素(要素Xとする)の出現頻度の校正前後における差分を特定する(第1差分)。一方、要素Xと、要素A及び要素Bのいずれでもない他の単語Wと、のn−gramの出現頻度の校正前後における差分を特定する(第2差分)。この第1差分から第2差分を差し引いた値が、文書のバルク追加又はバルク削除によって生じた、要素A及び要素Xを含んだn−gramの差分となる。そして、このようにして算出した差分を用い、要素A及び要素Xを含んだn−gramの出現頻度の差分又は要素B及び要素Xを含んだn−gramの出現頻度の差分のいずれか一方に対して調整を行う。その結果、要素Aが要素Bに校正されている場合又は要素Bが要素Aに校正されている場合に、文書のバルク追加又はバルク削除が行われても、要素Aを含んだn−gramの出現頻度の差分と、要素Bを含んだn−gramの出現頻度の差分と、の対応関係を特定することが可能となる。
図23は、第3実施形態における校正規則抽出処理を説明するフローチャートである。
ステップ51〜ステップ57は、図7に示したステップ51〜57と同様であるため、説明を省略する。
ステップ58では、校正規則抽出部20は、ステップ54において校正組合せを抽出できたか否か、即ち、V1及びV2の近似値が閾値以上の要素の組合せがあったか否かを判定する。校正組合せを抽出できた場合には、ループ処理I内の処理を終了する一方(Yes)、校正組合せを抽出できなかった場合には、ステップ59に進む(No)。
ステップ59では、バルク文書の追加又は削除が行われた範囲におけるn−gramの出現頻度の増減量に基づいて差分ベクトルの成分を調整する、ベクトル調整処理を実行する。
図24は、ベクトル調整処理を説明するフローチャートである。
ステップ91では、校正規則抽出部20は、要素Aの校正前後における差分(即ち、校正前文書7における出現頻度と校正後文書8における出現頻度との差分)A1と、要素Bの出現頻度の校正前後における差分B1と、の間の差分Z(A1−B1)を算出する。なお、差分Zは、絶対値で算出すればよい。
ステップ92では、校正規則抽出部20は、V1及びV2につき、各成分(即ち、V1においては要素Aを含む各n−gramの出現頻度の校正前後における差分の反転であり、V2においては要素Bを含む各n−gramの出現頻度の校正前後における差分)の差分(V1−V2)を算出する。
ステップ93〜ステップ95は、V1及びV2の成分に対応する夫々の要素(即ち、要素A及び要素Bの少なくともいずれか一方との間でn−gramを構成する要素である)
を処理対象として行われるループ処理(ループ処理M)である。この処理では、V1及びV2の成分のうち、V1−V2の差分が大きい成分に対応する要素から順に処理対象とする。以下、この処理対象の要素を、要素Xという。
ステップ93では、校正規則抽出部20は、文書のバルク追加又はバルク削除によって生じた、要素X及び要素Aを含むn−gramの出現頻度の変動量の推定値S(X)を算出する。この推定値S(X)は、例えば、次のような式によって算出することができる。「S(X)=[校正前後における要素Xの出現頻度の差分]−SUM(i)[n−gramXW_iの出現頻度の差分]」
ここで、Wは、要素A及び要素Bのいずれとも異なる他の要素であり、n−gramXW_iは、要素X及び要素Wのそれぞれを含んだn−gramである。
即ち、上記式においては、校正規則抽出部20は、まず、[校正前後における要素Xの出現頻度の差分](第1差分)を算出する。
さらに、校正規則抽出部20は、SUM(i)[n−gramXW_iの出現頻度の差分]、即ち、要素X及び要素Wを含むn−gramの出現頻度の校正前後における差分(第2差分)を算出する。第2差分は、要素Wが複数ある場合には、全ての要素Wについて合算した値である。なお、n−gramが3−gram以上である場合、要素Wは、2つ以上の連続する要素を含む概念とする。
そして、校正規則抽出部20は、第1差分と第2差分との差分を算出して、S(X)とする。なお、S(X)は、原則として、文書のバルク削除がされている場合には負の数となる一方、バルク追加がされている場合には、正の数となる。
ステップ94では、校正規則抽出部20は、V1における要素Xに対応する成分、即ち、要素X及び要素Aを含むn−gramの出現頻度の校正前後における差分を反転させた値を、S(X)で調整する。この処理は、換言すれば、要素X及び要素Aを含むn−gramの出現頻度の差分において、バルク追加又はバルク削除された文書内の出現頻度の差分がカウントされないように、出現頻度を調整する処理である。具体的には、例えば、V1における要素Xに対応する成分、即ち、要素X及び要素Aを含むn−gramの出現頻度の校正前後における差分を反転させた値に、S(X)を加算する。
このステップ93及びステップ94の処理は、換言すれば、次のようなものである。すなわち、文書のバルク削除が行われたときには、S(X)は、[校正前後における要素Wの出現頻度の減少量]−SUM(i)[n−gramXW_iの出現頻度の減少量]であり、これを、V1における要素Xに対応する成分からS(X)を差し引く。一方で、文書のバルク追加が行われたときには、S(X)は、[校正前後における要素Wの出現頻度の増加量]−SUM(i)[n−gramXW_iの出現頻度の減少量]であり、これを、V1における要素Xに対応する成分からS(X)に加える。
なお、V1の成分をS(X)の値で調整する代わりに、V2における要素Xに対応する成分、即ち、要素X及び要素Bを含むn−gramの出現頻度の校正前後における差分に、S(X)の値を反映させて調整を行ってもよい。
ステップ95では、校正規則抽出部20は、(1)V1及びV2の近似値が閾値未満であり、(2)Z−SUM(算出済のS(X))が閾値以上である、という条件を満たすか否かを判定する。SUM(算出済のS(X))とは、即ち、これまでにステップ93で算出したS(X)の合算値である。このS(X)は、絶対値で算出すればよい。なお、(1)及び(2)で用いる閾値は、それぞれユーザが予め記憶装置に任意に設定しておくことができる。この判定において、(1)及び(2)の条件は、いずれか一方が満たされてい
ることを以って条件を満たしていると判定してもよいし、両方が満たされていることを以って条件を満たしていると判定してもよい。条件が満たされている場合には、ループ処理M内の次の処理を実行し(Yes)、条件が満たされていない場合には、ループ処理Mの処理から抜ける(No)。
次に、かかるベクトル調整処理を適用した校正規則抽出の具体例につき、図25〜図28を用いて説明する。
まず、校正前文書7が、図25に示す内容であったとする。一方で、校正後文書8が、図26に示す内容であったとする。
これらの校正前文書7及び校正前文書8を比較すると、「公正」が「校正」に置換されている。このため、「公正」及び「校正」は、校正組合せとして抽出されるべきである。しかし、校正前後において、校正前文書7のうち、「しかし、以上の公正からはこの公正結果を得ることができないかもしれない。この公正はやはり誤っていたことを公正の結果判断することができる。この方法によれば、さきほどの近似値の値は、その値を求めることにより算出できる。このベクトルの近似値は差分によるものである。」の文書がバルク削除されている。
かかる校正前文書7及び校正前文書8における、「公正」及び「校正」を含んだ2−gramの出現頻度を、図27に示す。なお、本説明では、説明の簡略化のため、前2−gramのみを処理対象とするものとする。ここで、校正前後における「公正」(要素A)の2−gramの減少量と、「校正」(要素B)の2−gramの増加量と、を比較する。すると、「公正」及び「校正」との間で2−gramを構成する各要素Xのうち、一部の要素である「この」、「の」、「を」との2−gramの出現頻度の変動量において、対応関係を有していない。図28に、要素A「公正」の出現頻度の差分ベクトルの成分と、この差分ベクトルを反転させたベクトルV1の成分と、要素B「校正」の差分ベクトルの成分と、を示す。このように、V1とV2とは、要素Xである「この」、「の」、「を」に対応する成分が一致しないため、少なくとも第1実施例又は第2実施例の処理においては、校正組合せとして抽出されない可能性が高い。
ここで、前述の第3実施例におけるベクトル調整処理を適用すると、次のようになる。まず、要素A「公正」の出現頻度の差分である変動量A1=11であり、要素B「校正」の出現頻度の差分である変動量B1=7となる。そして、A1とB1との差分であるZ=4(11−7)となる。
次に、図28にさらに示すように、ベクトルV1、V2について、V1−V2を計算する。そして、各成分に対応する要素Xのそれぞれについて処理を行う。このとき、差分の大きい要素順にそれぞれ処理を行う。本具体例の場合には、要素X1「この」、X2「の」、X3「を」の順となる。
ここで、以下の説明では、要素X3「を」の処理例を用いて説明する。即ち、「文書のバルク削除によって生じた、要素X3「を」と要素A「公正」とを含む2−gramの出現頻度の減少数」の推定値S(X1)は、図24のステップ93の計算式を用い、次のようにして計算できる。即ち、(1)要素X3「を」の出現頻度は、校正前文書7では「8」である一方、校正後文書8では「5」である。即ち、校正前後で、要素X3「を」の出現頻度は「3」減少している。(2)また、要素X3「を」と、要素X3「を」に続く要素であって要素A「公正」及び要素B「校正」のいずれとも異なる要素Wと、の2−gramの出現頻度は、校正前文書7では「7」である一方、校正後文書8では「5」であり、校正前後の減少数は「2」である。
したがって、図24のステップ93の計算式にあてはめると、S(X3)=3−2=1と計算できる。
そして、V1の成分のうち、要素X3「を」に対応する成分「1」から、S(X3)の「1」を差し引くと、「0」となる。その結果、V1とV2における要素X1「を」に対応する成分は、いずれも「0」となり一致する。
同様の処理を、他の要素X2〜Xnにも行うことで、V1とV2のベクトルの近似値が高くなる。なお、このようにベクトルの調整が進行したことは、要素A「公正」の出現頻度の差分である変動量A1と要素B「校正」の出現頻度の差分である変動量B1の差分Zから、算出済のS(X)の合算値を差し引いた値が小さくなることによって確認することもできる。
そして、前述したようにV1とV2のベクトルの近似値が高くなることによって、要素A「公正」及び要素B「校正」が校正組合せとして抽出されることが可能となる。
かかる第3実施例の処理によれば、文書がバルク追加又はバルク削除されたときにも、校正規則を抽出するのに用いる差分ベクトルの成分において、当該バルク文書に含まれるn−gramの出現頻度が調整される。このため、校正前の要素を含んだn−gramの出現頻度の減少量と、校正後の要素を含んだn−gramの出現頻度の増加量の対応関係を特定することが可能となり、校正規則を正しく抽出することができる。
ところで、上述した校正支援装置10の機能的構成及び物理的構成は、図1に記載の態様に限るものではなく、例えば、各機能や物理資源を統合して実装したり、逆に、さらに分散して実装したりすることも可能である。また、この構成支援装置10の諸機能は、校正支援プログラムをコンピュータのCPU(Central Processing Unit)で実行したり、
論理回路若しくはFPGA(Field Programmable Gate Array)等で実装したりすること
によって実現することが可能である。
図29は、校正支援プログラムを実行するコンピュータの一例を示す。当該コンピュータは、入力装置30、CPU31、RAM(Random Access Memory)32、HDD(Hard
Disk Drive)33及び表示装置34を有する。
入力装置30は、各種の入力を受け付ける装置であり、図1の入力部1に対応する。入力装置30のハードウェアは、例えば、キーボード、マウス、タッチパネル、マイク等である。
CPU31は、HDD33に格納されている校正支援プログラム35をRAM32にロードして、校正支援プログラム36を実行する。このとき、CPU31では、校正支援プロセス37が処理される。当該校正支援プロセス37で実現される機能(処理)は、上述した文書読出処理、文書解析処理、校正対象推定処理、頻度算出処理、校正規則抽出処理、表示処理及び辞書登録処理に対応する。
RAM32には、HDD33に格納されている校正支援プログラム35がCPU31によってロードされるとともに、CPU31で校正支援プログラム36を実行するのに要する処理データ38が格納される。なお、RAM32は、図1の処理情報記憶部3に対応し、処理データ38は、要素記憶部9、共起記憶部10、頻度記憶部11、対象記憶部12、差分記憶部13及び校正規則記憶部14に格納されるデータに対応する。
HDD33には、校正支援プログラム35が格納される一方、校正前文書39及び校正後文書40並びに校正辞書データベース41が格納される。校正前文書39及び校正後文書40は、図1の文書記憶部2の校正前文書7及び校正後文書8に対応し、校正辞書デー
タベース41は、図1の校正辞書記憶部6の校正辞書データベース23に対応する。
表示装置34は、校正規則を表示するものであり、図1の表示部5に対応する。表示装置34のハードウェアは、例えば、ディスプレイ等である。
なお、校正支援プログラム35は、必ずしもHDD33に格納されている必要はなく、例えば、コンピュータが読み取り可能な各種記憶媒体(CDやDVD、磁気ディスク、フラッシュメモリ等)に格納されていてもよい。また、校正支援プログラム35は、例えば、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。同様に、校正前文書39及び校正後文書40のデータや校正辞書データベース41についても、各種記憶媒体や、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出部と、前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出部と、前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出部と、を備えたことを特徴とする校正支援装置。
(付記2)前記差分算出部は、前記差分を算出した要素について、共起関係を構成する要素を次元軸とし前記差分を成分とする差分ベクトルを生成し、
前記校正規則抽出部は、前記差分ベクトルが生成された要素について、前記差分ベクトルを反転させ、当該反転させたベクトルと他の要素の前記差分ベクトルとの近似値を算出し、当該近似値が所定値よりも大きい要素の組合せを特定することを特徴とする付記1記載の校正支援装置。
(付記3)前記出現頻度が算出された要素について、校正前文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正前頻度ベクトル、及び、校正後文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正後頻度ベクトルを生成して、前記校正前頻度ベクトルと前記校正後頻度ベクトルとの近似値を算出し、当該近似値が所定値よりも小さいときに、当該要素を校正対象として特定する対象特定部をさらに備え、前記差分算出部は、前記出現頻度が算出された要素のうち、前記対象特定部により校正対象として特定された要素についてのみ差分を算出することを特徴とする付記2記載の校正支援装置。
(付記4)前記共起関係は、要素及び当該要素の前に連続して出現する1つ以上の他の要素が出現順に並べられた集合の組合せ、又は、要素及び当該要素の後に連続して出現する1つ以上の他の要素が出現順に並べられた集合の組合せのいずれか一方又は両方であることを特徴とする付記1〜3のいずれか1つに記載の校正支援装置。
(付記5)前記共起関係は、要素及び当該要素の前に連続して出現する1つ以上の他の要素が所定規則でソートされた集合の組合せ、又は、要素及び当該要素の後に連続して出現する1つ以上の他の要素が所定規則でソートされた集合の組合せのいずれか一方又は両方であることを特徴とする付記1〜3のいずれか1つに記載の校正支援装置。
(付記6)前記校正規則抽出部は、前記差分を算出した要素のうち、前記差分が一定の関係にない第1要素及び第2要素を選択し、前記第1要素及び第2要素の少なくともいずれか一方との間で共起関係を構成する要素の校正後文書における出現頻度と校正前文書における出現頻度との差分を第1差分とする一方、前記第1要素及び第2要素との間で共起関係を構成する要素と、前記第1要素及び前記第2要素のいずれとも異なる他の要素と、の共起関係の校正後文書における出現頻度と校正前文書における出現頻度との差分を第2差分とし、前記第1差分と前記第2差分との差分で、前記第1要素又は前記第2要素のいずれか一方の共起関係の出現頻度の差分を調整することを特徴とする付記1〜5のいずれか1つに記載の校正支援装置。
(付記7)前記頻度算出部は、前記集合に含まれる要素が活用語である場合には、見出し語に修正することを特徴とする付記4又は5に記載の校正支援装置。
(付記8)前記出力処理部は、前記校正規則を、記憶手段に格納された校正辞書に登録することを特徴とする付記1〜7のいずれか1つに記載の校正支援装置。
(付記9)前記文書読出部は、ユーザにより入力手段を介して指定された校正前文書及び校正後文書を記憶手段から読み出すことを特徴とする付記1〜8のいずれか1つに記載の校正支援装置。
(付記10)前記文書解析部は、校正前文書及び校正後文書を要素に分割するとともに、要素に対して当該要素の属性情報を付与し、前記頻度算出部は、特定の属性情報が付された要素のみについて、前記校正前共起頻度及び前記校正後共起頻度をそれぞれ算出することを特徴とする付記1〜9のいずれか1つに記載の校正支援装置。
(付記11)校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出手順と、前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出手順と、前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出手順と、をコンピュータに実行させることを特徴とする校正支援プログラム。
1 入力部
2 文書記憶部
3 処理情報記憶部
4 制御部
5 表示部
6 校正辞書記憶部
7 校正前文書
8 校正後文書
9 要素記憶部
10 共起記憶部
11 頻度記憶部
12 対象記憶部
13 差分記憶部
14 校正規則記憶部
15 文書読出部
16 文書解析部
17 頻度算出部
18 対象特定部
19 差分算出部
20 校正規則抽出部
21 表示処理部
22 辞書登録部
23 校正辞書データベース
30 入力装置
31 CPU
32 RAM
33 HDD
34 表示装置
35 校正支援プログラム(HDD)
36 校正支援プログラム(RAM)
37 校正支援プロセス
38 処理データ
39 校正前文書
40 校正後文書
41 校正辞書データベース

Claims (7)

  1. 校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出部と、
    前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出部と、
    前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出部と、
    を備えたことを特徴とする校正支援装置。
  2. 前記差分算出部は、前記差分を算出した要素について、共起関係を構成する要素を次元軸とし前記差分を成分とする差分ベクトルを生成し、
    前記校正規則抽出部は、前記差分ベクトルが生成された要素について、前記差分ベクトルを反転させ、当該反転させたベクトルと他の要素の前記差分ベクトルとの近似値を算出し、当該近似値が所定値よりも大きい要素の組合せを特定することを特徴とする請求項1記載の校正支援装置。
  3. 前記出現頻度が算出された要素について、校正前文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正前頻度ベクトル、及び、校正後文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正後頻度ベクトルを生成して、前記校正前頻度ベクトルと前記校正後頻度ベクトルとの近似値を算出し、当該近似値が所定値よりも小さいときに、当該要素を校正対象として特定する対象特定部をさらに備え、
    前記差分算出部は、前記出現頻度が算出された要素のうち、前記対象特定部により校正対象として特定された要素についてのみ差分を算出することを特徴とする請求項2に記載の校正支援装置。
  4. 前記共起関係は、要素及び当該要素の前に連続して出現する1つ以上の他の要素が出現順に並べられた集合の組合せ、又は、要素及び当該要素の後に連続して出現する1つ以上の他の要素が出現順に並べられた集合の組合せのいずれか一方又は両方であることを特徴とする請求項1〜3のいずれか1つに記載の校正支援装置。
  5. 前記共起関係は、要素及び当該要素の前に連続して出現する1つ以上の他の要素が所定規則でソートされた集合の組合せ、又は、要素及び当該要素の後に連続して出現する1つ以上の他の要素が所定規則でソートされた集合の組合せのいずれか一方又は両方であることを特徴とする請求項1〜3のいずれか1つに記載の校正支援装置。
  6. 前記校正規則抽出部は、前記差分を算出した要素のうち、前記差分が一定の関係にない第1要素及び第2要素を選択し、前記第1要素及び第2要素の少なくともいずれか一方との間で共起関係を構成する要素の校正後文書における出現頻度と校正前文書における出現頻度との差分を第1差分とする一方、前記第1要素及び第2要素との間で共起関係を構成する要素と、前記第1要素及び前記第2要素のいずれとも異なる他の要素と、の共起関係の校正後文書における出現頻度と校正前文書における出現頻度との差分を第2差分とし、前記第1差分と前記第2差分との差分で、前記第1要素又は前記第2要素のいずれか一方
    の共起関係の出現頻度の差分を調整することを特徴とする請求項1〜5のいずれか1つに記載の校正支援装置。
  7. 校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出手順と、
    前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出手順と、
    前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出手順と、
    をコンピュータに実行させることを特徴とする校正支援プログラム。
JP2011061796A 2010-03-31 2011-03-18 校正支援装置及び校正支援プログラム Active JP5673265B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011061796A JP5673265B2 (ja) 2010-03-31 2011-03-18 校正支援装置及び校正支援プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010084250 2010-03-31
JP2010084250 2010-03-31
JP2011061796A JP5673265B2 (ja) 2010-03-31 2011-03-18 校正支援装置及び校正支援プログラム

Publications (2)

Publication Number Publication Date
JP2011227876A true JP2011227876A (ja) 2011-11-10
JP5673265B2 JP5673265B2 (ja) 2015-02-18

Family

ID=45043106

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011061796A Active JP5673265B2 (ja) 2010-03-31 2011-03-18 校正支援装置及び校正支援プログラム

Country Status (1)

Country Link
JP (1) JP5673265B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138414A (ja) * 2014-01-22 2015-07-30 富士通株式会社 機械翻訳装置、翻訳方法、及び、そのプログラム
CN110929514A (zh) * 2019-11-20 2020-03-27 北京百分点信息科技有限公司 文本校对方法、装置、计算机可读存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176059A (ja) * 1992-12-02 1994-06-24 Fujitsu Ltd 機械翻訳における後編集装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176059A (ja) * 1992-12-02 1994-06-24 Fujitsu Ltd 機械翻訳における後編集装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200400584009; 上田 芳弘 外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 (J85-D-I) 第J85-D-I巻第7号, 20020701, P.681-690, 社団法人電子情報通信学会 *
CSNG201100237003; 金山 博 外1名: 'Wikipediaの編集履歴を用いた書き換えパターンの抽出' 言語処理学会第17回年次大会発表論文集 , 20110331, P.13-16, 言語処理学会 *
JPN6014030438; 金山 博 外1名: 'Wikipediaの編集履歴を用いた書き換えパターンの抽出' 言語処理学会第17回年次大会発表論文集 , 20110331, P.13-16, 言語処理学会 *
JPN6014030440; 上田 芳弘 外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 (J85-D-I) 第J85-D-I巻第7号, 20020701, P.681-690, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138414A (ja) * 2014-01-22 2015-07-30 富士通株式会社 機械翻訳装置、翻訳方法、及び、そのプログラム
CN110929514A (zh) * 2019-11-20 2020-03-27 北京百分点信息科技有限公司 文本校对方法、装置、计算机可读存储介质及电子设备

Also Published As

Publication number Publication date
JP5673265B2 (ja) 2015-02-18

Similar Documents

Publication Publication Date Title
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
JP5379155B2 (ja) Cjk名前検出
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
US8204736B2 (en) Access to multilingual textual resources
KR20080021692A (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
KR20150007647A (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
JP2011118689A (ja) 検索方法及びシステム
US9633009B2 (en) Knowledge-rich automatic term disambiguation
US9690797B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
JP5673265B2 (ja) 校正支援装置及び校正支援プログラム
JP5770753B2 (ja) Cjk名前検出
Singh et al. Review of real-word error detection and correction methods in text documents
EP3629218A1 (en) Spell correction, morphological analysis and parsing for potentially ungrammatical language
Naptali et al. Topic-dependent language model with voting on noun history
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Irmawati et al. Generating artificial error data for indonesian preposition error corrections
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
Donaj et al. Context-dependent factored language models
CN114444491A (zh) 新词识别方法和装置
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140108

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20140514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141215

R150 Certificate of patent or registration of utility model

Ref document number: 5673265

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150