JP2011227876A - 校正支援装置及び校正支援プログラム - Google Patents
校正支援装置及び校正支援プログラム Download PDFInfo
- Publication number
- JP2011227876A JP2011227876A JP2011061796A JP2011061796A JP2011227876A JP 2011227876 A JP2011227876 A JP 2011227876A JP 2011061796 A JP2011061796 A JP 2011061796A JP 2011061796 A JP2011061796 A JP 2011061796A JP 2011227876 A JP2011227876 A JP 2011227876A
- Authority
- JP
- Japan
- Prior art keywords
- document
- calibration
- proofreading
- difference
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】文書読出部15が校正前文書7及び校正後文書8を読み出し、文書解析部16がこれを解析して要素に分割し、各要素の共起関係を抽出する。頻度算出部17は、校正前文書において共起関係が出現する頻度及び校正後文書において共起関係が出現する頻度を夫々算出する。さらに、差分算出部19が、校正後の共起頻度から校正前の共起頻度を差し引いた差分を算出し、共起関係に含まれる要素を次元軸とし差分を成分とする差分ベクトルを生成する。また、校正規則作成部20が、差分ベクトルが生成された要素について差分ベクトルを反転させ、当該反転させたベクトルと他の要素の差分ベクトルとが一致又は近似するときに、当該要素と当該他の要素とで校正規則を作成する。そして、表示処理部21及び辞書登録部22が当該校正規則を出力する。
【選択図】 図1
Description
書から容易に抽出することができなかった。
以下、第1実施例に係る校正支援装置について説明する。この校正支援装置は、文書校正がなされる前の状態である校正前文書、及び、当該校正前文書に対して文書校正がなされた後の状態である校正後文書を入力とする。そして、校正支援装置は、校正前文書及び校正後文書に基づき、校正前の要素と校正後の要素との組合せを抽出して校正規則を抽出し、抽出した校正規則を出力する。
入力部1は、各種の入力を受け付ける装置であり、例えば、キーボード、マウス、タッチパネル、マイク等である。ユーザは、入力部1を介して、校正前文書7及び校正後文書8を指定し、校正規則を抽出する指示を入力することができる。
処理情報記憶部3は、制御部4における処理で用いる情報が格納される記憶手段であり、要素記憶部9、共起記憶部10、頻度記憶部11、対象記憶部12、差分記憶部13及び校正規則記憶部14を有する。なお、要素記憶部9、共起記憶部10、頻度記憶部11、対象記憶部12、差分記憶部13及び校正規則記憶部14に格納される具体的なデータ構造等の例については、後述の具体例を用いた説明において示す。
文書解析部16は、文書読出部15により読み出された校正前文書7及び校正後文書8をそれぞれ解析し、所定の単位で区切られた要素に分割する。所定の単位とは、例えば、文字単位、単語単位、句単位、文単位等である。そして、文書解析部16は、文書が分割された結果としての各要素を、要素記憶部9に格納する。
むn−gramを夫々抽出する。「要素の前に連続して出現する要素を含むn−gram」とは、「要素」及び「当該要素の前に連続して出現する1個以上(n−1個)の要素が出現順に並べられた集合」を含む、合計n個の要素の組合せである。同様に、「要素の後に連続して出現する要素を含むn−gram」とは、「要素」及び「当該要素の後に連続して出現する1個以上(n−1個)の要素が出現順に並べられた集合」を含む、合計n個の要素の組合せである。nは2以上の整数であればいくつであってもよい。なお、以下の説明では、「(要素の)前に連続して出現する要素を含むn−gram」を「(要素の)前n−gram」と略記し、「(要素の)後に連続して出現する要素を含むn−gram」を「(要素の)後n−gram」と略記する。
要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する。具体的には、校正規則抽出部20は、各要素の差分ベクトルを反転させ、当該反転させたベクトルと、他の要素の差分ベクトルと、の近似値を算出する。ここで、校正規則抽出部20がこのように各要素の差分ベクトルを反転させて他の要素の差分ベクトルとの近似値を算出するのは、次の理由による。即ち、ある要素が別の要素に校正された場合、校正前後において、校正前の要素を含んだn−gramの出現頻度の差分(減少量)と、校正後の要素を含んだn−gramの出現頻度の差分(増加量)と、は対応関係にある可能性が高い。このとき、校正前の要素の差分ベクトルと校正後の要素の差分ベクトルとは、ベクトルの大きさが一致若しくは近似し、方向が反対方向となる。このため、いずれか一方の差分ベクトルを反転させることにより、両ベクトルは方向及び大きさともに一致若しくは近似するベクトルとなる。そして、このようにある要素の差分ベクトルを反転させたベクトルと他の要素の差分ベクトルとが一致若しくは近似する場合には、両要素が校正前及び校正後の校正規則をなす組合せである可能性が高いということになる。
辞書登録部22は、校正規則抽出部20が抽出した校正規則を、校正辞書記憶部6の校正辞書データベース23に登録する。
校正辞書記憶部6は、制御部4による処理の結果として出力される校正規則を登録する校正辞書データベース23が格納される記憶手段である。
図2は、校正支援処理の概要を示すフローチャートである。当該校正支援処理は、入力部1が、ユーザによる操作指示を受け付けたときに実行される。
以下のステップ11〜13は、校正前文書7及び校正後文書8の夫々について行われる処理(ループ処理A)である。
ステップ13では、文書解析部16が、文書に含まれるn−gramを抽出し、共起記憶部10に格納する。
以下のステップ21〜ステップ23は、校正前文書7及び校正後文書8の夫々を処理対象として行われる処理(ループ処理B)であり、さらに、要素記憶部9に格納された要素の夫々を処理対象として行われる処理(ループ処理C)である。
ステップ22では、頻度算出部17が、抽出した各要素の前n−gramが文書に出現する出現頻度及び後n−gramが文書に出現する出現頻度を、夫々カウントする。そして、頻度算出部17は、各n−gramに含まれる要素及びカウントした頻度を、頻度記憶部11に格納する。
以下のステップ31は、校正前文書7及び校正後文書8の夫々を処理対象として行われる処理(ループ処理D)であり、さらに、要素記憶部9に格納された要素の夫々を処理対象として行われる処理(ループ処理E)である。
素(群)を指す。この頻度ベクトルを表すデータは、頻度記憶部11に格納された、前n−gramの出現頻度及び後n−gramの出現頻度の両方をベクトル成分としたデータである。
ステップ32では、対象特定部18が、上記ステップ31で生成された頻度ベクトルにつき、ベクトル空間モデルに基づいて、校正前文書7における頻度ベクトル(校正前頻度ベクトル)と校正後文書8における頻度ベクトル(校正後頻度ベクトル)との近似値を算出する。ここで、例えば、処理対象の要素が文書において全く出現しない場合には、頻度ベクトルが生成されないこととなる。このように、近似値を算出する対象となる頻度ベクトルが存在しない場合には、近似値を0とすればよい。なお、この対象特定処理の説明において、以下、校正前文書7における頻度ベクトルをV1とし、校正後文書8における頻度ベクトルをV2とする。
以下のステップ41〜ステップ43は、対象記憶部12に格納された校正対象要素の夫々を処理対象として行われるループ処理(ループ処理G)である。
13に格納された、要素の前n−gramの出現頻度の差分及び要素の後n−gramの出現頻度の差分の両方をベクトル成分としたデータである。
ステップ51〜ステップ54は、対象記憶部12に格納された校正対象要素の夫々を処理対象として行われるループ処理(ループ処理H)である。
ステップ53では、校正規則抽出部20が、V1及びV2の近似値が閾値以上か否か、即ち、V1及びV2が一致若しくは近似しているかを判定する。なお、この閾値はユーザが予め任意に設定しておくことができる。閾値の具体例としては、上述のように、近似しているか否かの判定に用いる基準となる値として、例えば0.8程度としておくことができ、また、閾値が低く設定されればされるほど、広範囲(多数)の要素について校正規則が抽出されることとなる。校正規則抽出部20は、近似値が閾値以上であれば、ステップ54に進む一方、近似値が閾値よりも小さければ、次の校正対象要素を処理対象としてループ処理Iの処理を続行する。
ステップ55では、校正規則抽出部20が、V2が正方向を向いているか否か、即ち、要素Bの差分ベクトルが正方向を向いているか否かを判定する。この判定は、換言すれば、要素Bを含むn−gramが校正前文書7よりも校正後文書8において増加しているか否かを判定するものである。対象特定部18は、V2が正方向を向いていれば、ステップ56に進む一方(Yes)、V2が正方向を向いていなければ、ステップ57に進む(No)。なお、V2が正方向を向いていない場合、要素Aの差分ベクトル(即ち、V1の反転前のベクトル)が正方向を向いていることとなり、要素Aを含むn−gramが校正前文書7よりも校正後文書8において増加していることになる。
規則記憶部14に登録をしないものとする。
以下のステップ61は、校正規則記憶部14に格納された校正規則の夫々について行われるループ処理(ループ処理J)である。
図9は、辞書登録処理を説明するフローチャートである。
ステップ71では、辞書登録部22が、校正辞書データベース23に対し、校正規則記憶部14に格納された校正規則を登録する。
に複数組の校正前文書及び校正後文書を蓄積しておき、これらの複数組の校正前文書及び校正後文書に対し連続してバッチ処理を行ってもよい。そうすれば、複数組の校正前文書及び校正後文書で行われた校正の内容がまとめて出力されることとなり、特に、校正対象の文書が多数ある場合に、処理の効率化を図ることができる。
対象格]/行っ[動詞語幹,自立語]/た[動詞活用語尾,終止形]/。[句点]」となる。なお
、「/」は要素間の区切りを示す。また、当該文書を、句単位で分割して解析情報を付与した場合、「[以下の[自立語=以下]/発癌性試験を[自立語=発癌性試験]/行った[自立語=行っ]]」となる。さらに、当該句の係り受け情報としては、「以下の」が「発癌性試験を」に係り、「発癌性試験を」が「行った」に係る。
元軸の成分が8、[が]の次元軸の成分が9、[で]の次元軸の成分が30の、6次元のベクトルとなる。一方、校正後文書8には、上記2−gramのいずれも出現しないため、ベクトルが生成されない。したがって、校正前文書7の頻度ベクトルと校正後文書8の頻度ベクトルは少なくとも近似しないこととなり、対象特定部18は、[発癌性試験]を、校正対象の単語として対象記憶部12に格納する。また、同様に、[がん原性試験]の校正前文書7及び校正後文書8の頻度ベクトルも近似しないため、対象特定部18は、[がん原性試験]を、校正対象の要素とし、対象記憶部12に格納する。この文書において、対象特定部18が校正対象の要素として特定した要素が、仮に[発癌性試験]及び[がん原性試験]の2つのみであった場合、対象記憶部12のデータは、図14のようになる。
た校正規則が登録された校正辞書データベース23のデータ例である。
次に、校正支援装置の第2実施例について説明する。第2実施例に係る校正支援装置は、第1実施例に比べて次の点で異なる。即ち、第1実施例では、文書における共起関係として、要素の前n−gram及び後n−gramを抽出し、要素の前n−gram及び後n−gramの出現頻度に基づいて処理を行った。かかるn−gramにおいては、要素の出現順が異なれば異なるn−gramであるという扱いとなるため、例えば、[A][B][C]の3−gramと、[B][A][C]の3−gramとは異なるものとして処理されていた。一方、第2実施例では、要素の前後に出現する複数要素を、出現順に依存しない集合として処理する。上記例の場合、第2実施例では、[C]を基準とすると、1番目の3−gramにおいて[C]の前に出現する[A][B]も、2番目の3−gramにおいて[C]の前に出現する[B][A]も、いずれも同じ{[A][B]}として処理される。以下、第1実施例と異なる点についてのみ説明する。
以下のステップ81〜86は、校正前文書7及び校正後文書8の夫々について行われる処理(ループ処理L)である。
ステップ84では、文書解析部16が、抽出したn−gramから、各要素の前に連続して出現するn−1個の要素、及び、各要素の前に連続して出現するn−1個の要素を抽出する。
例えば、校正前文書7が「目の前に広く青い海が広がった。」であり、校正後文書8が、「目の前に青く広い海原が広がった。」であった場合を想定する。ここで、校正前文書7及び校正後文書8が単語ごとに分割された場合、校正前文書7において「海」の前に連続して出現する2つの単語は、「広く」及び「青い」となる。一方、校正後文書8において「海原」の前に連続して出現する2つの単語は、「青く」及び「広い」となる。このとき、第1実施例において、「海」の前3−gramを見出し語に修正した上で抽出し、当該前3−gramの出現頻度をカウントした場合には、3−gramは[広][青][海]となり、頻度記憶部11は、図21(A)のようになる。一方、第2実施例において、「海」の前に連続して出現する2つの単語を、見出し語に修正した上で昇順ソートし、集合として処理した場合、頻度記憶部11は、図21(B)のようになる。即ち、第2実施例では、[広][青]の2つの単語が昇順ソートされ、{[青],[広]}の集合となる。同様に、校正後文書8について「海原」に着目すると、第1実施例では、「海原」の前3−gramは[広][青][海]となり、頻度記憶部11は、図21(C)のようになる。一方、第2実施例では、「海原」の前に連続して出現する2つの単語を集合として処理すると、図21(D)のようになる。即ち、第2実施例では、[広][青]の2つの単語が昇順ソートされ、{[青],[広]}の集合となる。そして、第1実施例では、差分算出処理において「海」「海原」の前3−gramについて校正前文書7及び校正後文書8における差分を算出した場合、夫々、図22(A)及び図22(B)のようになる。一方、第2実施例では、「海」「海原」の前の2つの単語の集合について校正前文書7及び校正後文書8における差分を算出した場合、夫々、図22(C)及び図22(D)のようになる。
[第3実施例]
次に、校正支援装置の第3実施例について説明する。第3実施例に係る校正支援装置は、第1実施例や第2実施例に比べて次の点で異なる。即ち、第1実施例や第2実施例に係る校正支援装置は、原則として、校正前後において、校正前の要素を含んだn−gramの出現頻度の差分(減少量)と、校正後の要素を含んだn−gramの出現頻度の差分(増加量)と、は対応関係にある可能性が高いという前提で動作していた。例えば、校正によって全ての要素Aが要素Bに校正されたとすると、要素Aの減少数と要素Bの増加数は一致する。また、全ての要素Aについて要素Bへの校正がなされていなくても、要素Aから要素Bへの校正のみがなされ、要素Aから他の要素Xへの校正や他の要素Yから要素Bへの校正などがなければ、要素Aの減少数と要素Bの増加数は一致する。要素Aの減少数と要素Bの増加数が一致するということは、即ち、要素Aを含んだn−gramの出現頻度の減少量と、要素Bを含んだn−gramの出現頻度の差分の増加量に対応関係がある、ということである。
書の削除や追加があった場合、校正前の要素を含んだn−gramの出現頻度の減少量と、校正後の要素を含んだn−gramの出現頻度の増加量と、の対応関係は必ずしも成立しない。
具体的には、第3実施例に係る校正支援装置は、校正対象となった要素以外の要素同士のn−gramの出現頻度が、文書のバルク追加又はバルク削除以外では原則として大きく変化をせず、また、校正対象となる要素が連続する確率も比較的低いという前提のもとに、次のような動作をする。即ち、ある要素A(第1要素)を含んだn−gramの出現頻度の校正前後の差分(即ち変動量(増加量又は減少量))との間で対応関係にある要素が抽出できない場合、要素Aとの間で対応関係にない要素B(第2要素)を選択する。そして、当該要素A及び要素Bの少なくともいずれか一方との間でn−gramを構成する各要素(要素Xとする)の出現頻度の校正前後における差分を特定する(第1差分)。一方、要素Xと、要素A及び要素Bのいずれでもない他の単語Wと、のn−gramの出現頻度の校正前後における差分を特定する(第2差分)。この第1差分から第2差分を差し引いた値が、文書のバルク追加又はバルク削除によって生じた、要素A及び要素Xを含んだn−gramの差分となる。そして、このようにして算出した差分を用い、要素A及び要素Xを含んだn−gramの出現頻度の差分又は要素B及び要素Xを含んだn−gramの出現頻度の差分のいずれか一方に対して調整を行う。その結果、要素Aが要素Bに校正されている場合又は要素Bが要素Aに校正されている場合に、文書のバルク追加又はバルク削除が行われても、要素Aを含んだn−gramの出現頻度の差分と、要素Bを含んだn−gramの出現頻度の差分と、の対応関係を特定することが可能となる。
ステップ51〜ステップ57は、図7に示したステップ51〜57と同様であるため、説明を省略する。
ステップ91では、校正規則抽出部20は、要素Aの校正前後における差分(即ち、校正前文書7における出現頻度と校正後文書8における出現頻度との差分)A1と、要素Bの出現頻度の校正前後における差分B1と、の間の差分Z(A1−B1)を算出する。なお、差分Zは、絶対値で算出すればよい。
を処理対象として行われるループ処理(ループ処理M)である。この処理では、V1及びV2の成分のうち、V1−V2の差分が大きい成分に対応する要素から順に処理対象とする。以下、この処理対象の要素を、要素Xという。
ここで、Wは、要素A及び要素Bのいずれとも異なる他の要素であり、n−gramXW_iは、要素X及び要素Wのそれぞれを含んだn−gramである。
さらに、校正規則抽出部20は、SUM(i)[n−gramXW_iの出現頻度の差分]、即ち、要素X及び要素Wを含むn−gramの出現頻度の校正前後における差分(第2差分)を算出する。第2差分は、要素Wが複数ある場合には、全ての要素Wについて合算した値である。なお、n−gramが3−gram以上である場合、要素Wは、2つ以上の連続する要素を含む概念とする。
ることを以って条件を満たしていると判定してもよいし、両方が満たされていることを以って条件を満たしていると判定してもよい。条件が満たされている場合には、ループ処理M内の次の処理を実行し(Yes)、条件が満たされていない場合には、ループ処理Mの処理から抜ける(No)。
まず、校正前文書7が、図25に示す内容であったとする。一方で、校正後文書8が、図26に示す内容であったとする。
そして、V1の成分のうち、要素X3「を」に対応する成分「1」から、S(X3)の「1」を差し引くと、「0」となる。その結果、V1とV2における要素X1「を」に対応する成分は、いずれも「0」となり一致する。
かかる第3実施例の処理によれば、文書がバルク追加又はバルク削除されたときにも、校正規則を抽出するのに用いる差分ベクトルの成分において、当該バルク文書に含まれるn−gramの出現頻度が調整される。このため、校正前の要素を含んだn−gramの出現頻度の減少量と、校正後の要素を含んだn−gramの出現頻度の増加量の対応関係を特定することが可能となり、校正規則を正しく抽出することができる。
論理回路若しくはFPGA(Field Programmable Gate Array)等で実装したりすること
によって実現することが可能である。
Disk Drive)33及び表示装置34を有する。
タベース41は、図1の校正辞書記憶部6の校正辞書データベース23に対応する。
なお、校正支援プログラム35は、必ずしもHDD33に格納されている必要はなく、例えば、コンピュータが読み取り可能な各種記憶媒体(CDやDVD、磁気ディスク、フラッシュメモリ等)に格納されていてもよい。また、校正支援プログラム35は、例えば、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。同様に、校正前文書39及び校正後文書40のデータや校正辞書データベース41についても、各種記憶媒体や、上記コンピュータとネットワークを介して接続された他のコンピュータが備える各種記憶手段に記憶されていてもよい。
(付記1)校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出部と、前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出部と、前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出部と、を備えたことを特徴とする校正支援装置。
前記校正規則抽出部は、前記差分ベクトルが生成された要素について、前記差分ベクトルを反転させ、当該反転させたベクトルと他の要素の前記差分ベクトルとの近似値を算出し、当該近似値が所定値よりも大きい要素の組合せを特定することを特徴とする付記1記載の校正支援装置。
2 文書記憶部
3 処理情報記憶部
4 制御部
5 表示部
6 校正辞書記憶部
7 校正前文書
8 校正後文書
9 要素記憶部
10 共起記憶部
11 頻度記憶部
12 対象記憶部
13 差分記憶部
14 校正規則記憶部
15 文書読出部
16 文書解析部
17 頻度算出部
18 対象特定部
19 差分算出部
20 校正規則抽出部
21 表示処理部
22 辞書登録部
23 校正辞書データベース
30 入力装置
31 CPU
32 RAM
33 HDD
34 表示装置
35 校正支援プログラム(HDD)
36 校正支援プログラム(RAM)
37 校正支援プロセス
38 処理データ
39 校正前文書
40 校正後文書
41 校正辞書データベース
Claims (7)
- 校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出部と、
前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出部と、
前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出部と、
を備えたことを特徴とする校正支援装置。 - 前記差分算出部は、前記差分を算出した要素について、共起関係を構成する要素を次元軸とし前記差分を成分とする差分ベクトルを生成し、
前記校正規則抽出部は、前記差分ベクトルが生成された要素について、前記差分ベクトルを反転させ、当該反転させたベクトルと他の要素の前記差分ベクトルとの近似値を算出し、当該近似値が所定値よりも大きい要素の組合せを特定することを特徴とする請求項1記載の校正支援装置。 - 前記出現頻度が算出された要素について、校正前文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正前頻度ベクトル、及び、校正後文書における共起関係を構成する要素を次元軸とし当該共起関係の出現頻度を成分とした校正後頻度ベクトルを生成して、前記校正前頻度ベクトルと前記校正後頻度ベクトルとの近似値を算出し、当該近似値が所定値よりも小さいときに、当該要素を校正対象として特定する対象特定部をさらに備え、
前記差分算出部は、前記出現頻度が算出された要素のうち、前記対象特定部により校正対象として特定された要素についてのみ差分を算出することを特徴とする請求項2に記載の校正支援装置。 - 前記共起関係は、要素及び当該要素の前に連続して出現する1つ以上の他の要素が出現順に並べられた集合の組合せ、又は、要素及び当該要素の後に連続して出現する1つ以上の他の要素が出現順に並べられた集合の組合せのいずれか一方又は両方であることを特徴とする請求項1〜3のいずれか1つに記載の校正支援装置。
- 前記共起関係は、要素及び当該要素の前に連続して出現する1つ以上の他の要素が所定規則でソートされた集合の組合せ、又は、要素及び当該要素の後に連続して出現する1つ以上の他の要素が所定規則でソートされた集合の組合せのいずれか一方又は両方であることを特徴とする請求項1〜3のいずれか1つに記載の校正支援装置。
- 前記校正規則抽出部は、前記差分を算出した要素のうち、前記差分が一定の関係にない第1要素及び第2要素を選択し、前記第1要素及び第2要素の少なくともいずれか一方との間で共起関係を構成する要素の校正後文書における出現頻度と校正前文書における出現頻度との差分を第1差分とする一方、前記第1要素及び第2要素との間で共起関係を構成する要素と、前記第1要素及び前記第2要素のいずれとも異なる他の要素と、の共起関係の校正後文書における出現頻度と校正前文書における出現頻度との差分を第2差分とし、前記第1差分と前記第2差分との差分で、前記第1要素又は前記第2要素のいずれか一方
の共起関係の出現頻度の差分を調整することを特徴とする請求項1〜5のいずれか1つに記載の校正支援装置。 - 校正前文書を所定の単位で区切った各要素が校正前文書において共に出現する関係である共起関係と、校正後文書を所定の単位で区切った各要素が校正後文書において共に出現する関係である共起関係とを格納した共起記憶部に基づいて、校正前文書における各要素の共起関係の出現頻度及び校正後文書における各要素の共起関係の出現頻度をそれぞれ算出する頻度算出手順と、
前記出現頻度が算出された要素について、校正後文書における共起関係の出現頻度と校正前文書における共起関係の出現頻度との差分を算出する差分算出手順と、
前記差分を算出した要素間で、要素それぞれの差分が一定の関係にある要素の組合せを特定し、当該特定した要素の組合せにおいて、校正前文書よりも校正後文書のほうが共起関係の出現頻度が減少している一方の要素を校正前要素、校正前文書よりも校正後文書のほうが共起関係の出現頻度が増加している他方の要素を校正後要素として校正規則を抽出する校正規則抽出手順と、
をコンピュータに実行させることを特徴とする校正支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011061796A JP5673265B2 (ja) | 2010-03-31 | 2011-03-18 | 校正支援装置及び校正支援プログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010084250 | 2010-03-31 | ||
JP2010084250 | 2010-03-31 | ||
JP2011061796A JP5673265B2 (ja) | 2010-03-31 | 2011-03-18 | 校正支援装置及び校正支援プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011227876A true JP2011227876A (ja) | 2011-11-10 |
JP5673265B2 JP5673265B2 (ja) | 2015-02-18 |
Family
ID=45043106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011061796A Active JP5673265B2 (ja) | 2010-03-31 | 2011-03-18 | 校正支援装置及び校正支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5673265B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138414A (ja) * | 2014-01-22 | 2015-07-30 | 富士通株式会社 | 機械翻訳装置、翻訳方法、及び、そのプログラム |
CN110929514A (zh) * | 2019-11-20 | 2020-03-27 | 北京百分点信息科技有限公司 | 文本校对方法、装置、计算机可读存储介质及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06176059A (ja) * | 1992-12-02 | 1994-06-24 | Fujitsu Ltd | 機械翻訳における後編集装置 |
-
2011
- 2011-03-18 JP JP2011061796A patent/JP5673265B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06176059A (ja) * | 1992-12-02 | 1994-06-24 | Fujitsu Ltd | 機械翻訳における後編集装置 |
Non-Patent Citations (4)
Title |
---|
CSNG200400584009; 上田 芳弘 外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 (J85-D-I) 第J85-D-I巻第7号, 20020701, P.681-690, 社団法人電子情報通信学会 * |
CSNG201100237003; 金山 博 外1名: 'Wikipediaの編集履歴を用いた書き換えパターンの抽出' 言語処理学会第17回年次大会発表論文集 , 20110331, P.13-16, 言語処理学会 * |
JPN6014030438; 金山 博 外1名: 'Wikipediaの編集履歴を用いた書き換えパターンの抽出' 言語処理学会第17回年次大会発表論文集 , 20110331, P.13-16, 言語処理学会 * |
JPN6014030440; 上田 芳弘 外4名: '相関ルールを用いた組織内における文書校正支援' 電子情報通信学会論文誌 (J85-D-I) 第J85-D-I巻第7号, 20020701, P.681-690, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138414A (ja) * | 2014-01-22 | 2015-07-30 | 富士通株式会社 | 機械翻訳装置、翻訳方法、及び、そのプログラム |
CN110929514A (zh) * | 2019-11-20 | 2020-03-27 | 北京百分点信息科技有限公司 | 文本校对方法、装置、计算机可读存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5673265B2 (ja) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105917327B (zh) | 用于将文本输入到电子设备中的系统和方法 | |
JP5379155B2 (ja) | Cjk名前検出 | |
US9575955B2 (en) | Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method | |
KR101573854B1 (ko) | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 | |
EP3113174A1 (en) | Method for building a speech feature library, method, apparatus, and device for speech synthesis | |
US8204736B2 (en) | Access to multilingual textual resources | |
KR20080021692A (ko) | 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치 | |
KR20150007647A (ko) | 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법 | |
JP2011118689A (ja) | 検索方法及びシステム | |
US9633009B2 (en) | Knowledge-rich automatic term disambiguation | |
US9690797B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
JP5673265B2 (ja) | 校正支援装置及び校正支援プログラム | |
JP5770753B2 (ja) | Cjk名前検出 | |
Singh et al. | Review of real-word error detection and correction methods in text documents | |
EP3629218A1 (en) | Spell correction, morphological analysis and parsing for potentially ungrammatical language | |
Naptali et al. | Topic-dependent language model with voting on noun history | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
Irmawati et al. | Generating artificial error data for indonesian preposition error corrections | |
CN112183117B (zh) | 一种翻译评价的方法、装置、存储介质及电子设备 | |
Donaj et al. | Context-dependent factored language models | |
CN114444491A (zh) | 新词识别方法和装置 | |
JP4934115B2 (ja) | キーワード抽出装置、方法及びプログラム | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20140514 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140606 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140722 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140917 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5673265 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |