JP2010287154A - 文書校正プログラムおよび文書校正装置 - Google Patents

文書校正プログラムおよび文書校正装置 Download PDF

Info

Publication number
JP2010287154A
JP2010287154A JP2009142100A JP2009142100A JP2010287154A JP 2010287154 A JP2010287154 A JP 2010287154A JP 2009142100 A JP2009142100 A JP 2009142100A JP 2009142100 A JP2009142100 A JP 2009142100A JP 2010287154 A JP2010287154 A JP 2010287154A
Authority
JP
Japan
Prior art keywords
rule
check
document
character string
proofreading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009142100A
Other languages
English (en)
Inventor
Masaru Matsuoka
賢 松岡
Toshiyuki Kano
敏行 加納
Masahisa Shinozaki
政久 篠崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009142100A priority Critical patent/JP2010287154A/ja
Publication of JP2010287154A publication Critical patent/JP2010287154A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】容易にチェックルールの精度を向上させることを可能とする。
【解決手段】入力部31は、ユーザによって指定された文書であって、文字列を含む文書を入力する。文書校正部32は、ルール格納部22に格納されているチェックルールに含まれる第1の文字列が入力部31によって入力された文書に含まれていると判定された場合、当該第1の文字列およびルール格納部22に格納されているチェックルールに含まれる第2の文字列を含む校正結果を当該文書に書き出す。出力部33は、校正結果が書き出された文書を出力する。ルール評価部34は、出力部33によって出力された文書に書き出された校正結果に対するユーザの修正内容に基づいて、ルール格納部22に格納されているチェックルールの有効性を評価する。ルール更新部35は、ルール評価部34によるチェックルールの有効性の評価結果に基づいて当該チェックルールを無効化する。
【選択図】図2

Description

本発明は、文書を校正するための規則に基づいて当該文書を校正する文書校正プログラムおよび文書校正装置に関する。
一般的に、文書をコンピュータで自動的に校正するための方法として、予め文書を校正するための規則(以下、チェックルールと表記)を定め、当該チェックルールに基づいて文書を校正する方法が用いられている。
この方法の場合、文書の校正の精度はチェックルールの良し悪しに影響され、当該精度を向上させるためにはよりよいチェックルールを作成する必要がある。
ところで、よりよいチェックルールを作成するためには、現在のチェックルールを人間が評価し、当該評価結果に基づいてチェックルールを改良することが求められる。
このため、例えばチェックルールによって文書が校正された結果(文書校正結果)に対してアンケートを行う、または、被験者による評価実験を行う等の方法によりチェックルールの評価が行われる。
上記した文書を校正する技術に関して、例えば誤り検出の機能を損なうことなく夫々のレベルの分野の事情に応じて誤り候補の表示を抑制することが出来、真に誤りの可能性が高い候補のみがオペレータに提示される技術が開示されている(例えば、特許文献1を参照)。
特開平6−168233号公報
上記したように文書校正結果に対してアンケートを行う、または、被験者による評価実験を行うことで、チェックルールを適切に評価し、当該評価結果に基づいてチェックルールの精度を向上させることができる。
しかしながら、上記した例えば文書校正結果に対してアンケートを行う方法でチェックルールの評価を行う場合、当該アンケートの質問内容、回答者へのアンケートの配布または集計等を要するためアンケートを実施する者にとっては負担が大きい。また、アンケートを回答する側にとっても当該アンケートに回答することは負担となる。
また、例えば被験者による評価実験を行う方法でチェックルールの評価を行う場合、当該被験者を集める必要があるため負担が大きい。
つまり、上記したようなチェックルールの評価方法では負担が大きいため、チェックルールの評価を頻繁に行うことは困難である。このため、上記したチェックルールの評価によりチェックルールの精度を向上させることは容易ではない。
そこで、本発明の目的は、容易にチェックルールの精度を向上させることが可能な文書校正プログラムおよび文書校正装置を提供することにある。
本発明の1つの態様によれば、校正対象となる第1の文字列および当該第1の文字列の校正結果となる第2の文字列を含むチェックルールを格納するルール格納手段を有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書校正装置において、前記コンピュータによって実行される文書校正プログラムであって、前記コンピュータに、ユーザによって指定された文書であって、文字列を含む文書を入力するステップと、前記ルール格納手段に格納されているチェックルールに含まれる第1の文字列が前記入力された文書に含まれているかを判定するステップと、前記第1の文字列が前記入力された文書に含まれていると判定された場合、当該第1の文字列および前記ルール格納手段に格納されているチェックルールに含まれる第2の文字列を含む校正結果を前記入力された文書に書き出すステップと、前記校正結果が書き出された文書を出力するステップと、前記出力された文書に書き出された校正結果に対する前記ユーザの修正内容に基づいて、前記ルール格納手段に格納されているチェックルールの有効性を評価するステップと、前記ルール格納手段に格納されているチェックルールの有効性の評価結果に基づいて、当該チェックルールを無効化するステップとを実行させるための文書校正プログラムが提供される。
本発明は、容易にチェックルールの精度を向上させることを可能とする。
本発明の第1の実施形態に係る文書校正装置のハードウェア構成を示すブロック図。 図1に示す文書校正装置30の主として機能構成を示すブロック図。 図2に示すルール格納部22のデータ構造の一例を示す図。 本実施形態に係る文書校正装置30の処理手順を示すフローチャート。 文書校正処理の処理手順を示すフローチャート。 チェックルール評価処理の処理手順を示すフローチャート。 本発明の第2の実施形態に係る文書校正装置の主として機能構成を示すブロック図。 本実施形態に係る文書校正装置300の処理手順を示すフローチャート。 図7に示すルール追加部301によるチェックルール追加処理の処理手順を示すフローチャート。 本発明の第3の実施形態に係る文書校正装置の主として機能構成を示すブロック図。 図10に示すルール追加部311によるチェックルール追加処理の処理手順を示すフローチャート。 集約規則格納部23のデータ構造の一例を示す図。 図12に示す集約規則231が適用される具体例について説明するための図。 図12に示す集約規則232が適用される具体例について説明するための図。 図12に示す集約規則233が適用される具体例について説明するための図。
以下、図面を参照して、本発明の各実施形態について説明する。
[第1の実施形態]
まず、図1および図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る文書校正装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書校正装置30を構成する。
図2は、図1に示す文書校正装置30の主として機能構成を示すブロック図である。図2に示すように、文書校正装置30は、入力部31、文書校正部32、出力部33、ルール評価部34およびルール更新部35を含む。本実施形態において、これらの各部31〜35は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
また、文書校正装置30は、ルール格納部22を含む。本実施形態において、ルール格納部22は、例えば外部記憶装置20に格納される。
ルール格納部22には、文書を校正するためのチェックルール(規則)が格納される。ルール格納部22に格納されているチェックルールには、文書における校正対象(修正対象)となる適合語(第1の文字列)、当該適合語の校正結果(修正結果)となる修正候補(第2の文字列)および当該チェックルールが有効または無効であることを示すフラグ(有効・無効フラグ)が含まれる。
入力部31は、ユーザによって指定された文書を入力する。このユーザによって指定された文書には、文字列が含まれる。入力部31によって入力された文書は、文書校正装置30における校正対象(チェック対象)となる文書である。以下、入力部31によって入力された文書をチェック対象文書と称する。
文書校正部32は、ルール格納部22に格納されているチェックルールに基づいて、チェック対象文書(入力部31によって入力された文書)を校正する。文書校正部32は、ルール格納部22に格納されているチェックルールのうち、当該チェックルールが有効であることを示すフラグを含むチェックルールに基づいてチェック対象文書を校正する。
文書校正部32は、ルール格納部22に格納されているチェックルールに含まれる適合語がチェック対象文書に含まれているかを判定する。文書校正部32は、チェックルールに含まれる適合語がチェック対象文書に含まれると判定された場合、当該適合語および当該チェックルールに含まれる修正候補を含む校正結果をチェック対象文書に書き出す。これにより、チェック対象文書が校正される。
出力部33は、文書校正部32によって校正されたチェック対象文書(校正結果が書き出されたチェック対象文書)を出力する。これにより、チェック対象文書がユーザに対して提示される。なお、ユーザは、提示されたチェック対象文書に書き出された校正結果を参照して、当該チェック対象文書を修正することができる。
ルール評価部34は、出力部33によって出力されたチェック対象文書に書き出された校正結果に対するユーザの修正内容に基づいて、ルール格納部22に格納されているチェックルールの有効性を評価する。つまり、ルール評価部34は、文書校正部32によってチェック対象文書に書き出された校正結果(内容)とユーザによる修正内容を元にチェックルールの有効性を評価する。なお、チェック対象文書に書き出された校正結果に対するユーザによる修正内容(つまり、ユーザによって修正されたチェック対象文書)は、入力部31を介して再度入力される。
ルール更新部35は、ルール評価部34によるチェックルールの評価結果に基づいて、ルール格納部22に格納されているチェックルールを無効化する。ルール更新部35は、ルール格納部22に格納されているチェックルールに含まれるフラグを当該チェックルールが無効であることを示すフラグに変更する(切り替える)ことによって、当該チェックルールを無効化する。
図3は、図2に示すルール格納部22のデータ構造の一例を示す。ルール格納部22には、文書を校正するための複数のチェックルールが格納される。
図3に示すように、ルール格納部22に格納されているチェックルールには、ルール番号、適合語、修正候補およびフラグが含まれる。
ルール番号は、チェックルールを識別するための識別子である。適合語は、ルール番号によって示されるチェックルールによって文書中の誤りとして検出される語(第1の文字列)を示す。つまり、適合語は、文書に含まれる文字列のうち修正対象となる文字列を示す。修正候補は、ルール番号によって識別されるチェックルールによって検出された適合語の修正候補としてユーザに対して提示する語(第2の文字列)を示す。つまり、修正候補は、適合語に対する校正結果となる文字列を示す。また、フラグは、ルール番号によって識別されるチェックルールが有効または無効であることを示す。
図3に示す例では、ルール格納部22には、チェックルール221およびチェックルール222を含む複数のチェックルールが格納されている。
チェックルール221には、ルール番号「1」、適合語「PC」、修正候補「パソコン」およびフラグ「有効」が含まれる。これによれば、チェックルール221は、文書中の適合語「PC」は修正候補「パソコン」に校正(修正)するためのチェックルールであることが示されている。また、チェックルール221は、有効であることが示されている。
また、チェックルール222には、ルール番号「2」、適合語「を行く」、修正候補「へ行く」およびフラグ「有効」が含まれる。これによれば、チェックルール222は、文書中の適合語「を行く」は修正候補「へ行く」に校正(修正)するためのチェックルールであることが示されている。また、チェックルール222は、有効であることが示されている。
次に、図4のフローチャートを参照して、本実施形態に係る文書校正装置30の処理手順について説明する。
まず、入力部31は、ユーザによって指定された文書を入力する(ステップS1)。入力部31によって入力された文書(チェック対象文書)は、文書校正装置30における校正対象となる文書であり、文字列を含む。
次に、文書校正部32は、ルール格納部22に格納されているチェックルールに基づいて、チェック対象文書を校正する処理(以下、文書校正処理と表記)を実行する(ステップS2)。文書校正処理は、ルール格納部22に格納されているチェックルールのうち、当該チェックルールが有効であることを示すフラグを含むチェックルールに基づいて実行される。この文書校正処理の詳細については後述する。
出力部33は、文書校正部32によって校正されたチェック対象文書(つまり、校正結果が書き出されたチェック対象文書)を出力する(ステップS3)。これにより、チェック対象文書がユーザに対して提示される。
入力部31は、チェック対象文書を再度入力する(ステップS4)。この入力部31によって再度入力されたチェック対象文書には、文書校正部32に書き出された校正結果を参照してユーザが修正した内容(修正内容)が含まれる。
次に、入力部31によって再度入力されたチェック対象文書に基づいて、当該チェック対象文書の校正処理に用いられた(利用された)チェックルールの有効性を評価する処理(以下、チェックルール評価処理と表記)が実行される(ステップS5)。このチェックルール評価処理においては、チェックルールの評価結果に基づいて、当該チェックルールが無効化される。なお、チェックルール評価処理の詳細については後述する。
次に、図5のフローチャートを参照して、前述した文書校正処理(図4に示すステップS2の処理)の処理手順について説明する。
まず、文書校正部32は、ルール格納部22内に有効なチェックルールがあるか否かを判定する(ステップS11)。ここで、有効なチェックルールとは、チェックルールが有効であることを示すフラグを含むチェックルールをいう。つまり、文書校正部32は、ルール格納部22に格納されているチェックルールに含まれるフラグに基づいて判定処理を実行する。
ルール格納部22内に有効なチェックルールがあると判定された場合(ステップS11のYES)、文書校正部32は、当該有効なチェックルールをルール格納部22から1つ取り出す(ステップS12)。
次に、文書校正部32は、取り出されたチェックルールに含まれる適合語(文字列)を、チェック対象文書(上記した図4に示すステップS1において入力部31によって入力された文書)から検索する(ステップS13)。
文書校正部32は、検索結果に基づいて、チェック対象文書中に適合語があるか否かを判定する(ステップS14)。
チェック対象文書中に適合語があると判定された場合(ステップS14のYES)、文書校正部32は、ステップS12において取り出されたチェックルールに含まれる適合語および修正候補を校正結果として取得する(ステップS15)。
文書校正部32は、ルール格納部22に格納されている全ての有効なチェックルール(有効であることを示すフラグを含むチェックルール)について上記したステップS12〜ステップS15の処理が実行されたか否かを判定する(ステップS16)。
全ての有効なチェックルールについて処理が実行されていないと判定された場合(ステップS16のNO)、上記したステップS12に戻って処理が繰り返される。
一方、全ての有効なチェックルールについて処理が実行されたと判定された場合(ステップS16のYES)、文書校正部32は、上記したステップS15において取得された校正結果をチェック対象文書に書き出す(ステップS17)。
ステップS17において校正結果が書き出されたチェック対象文書は、出力部33を介して出力される。
ここで、文書校正部32によるチェック対象文書に書き出された校正結果について具体的に説明する。ここでは、校正前のチェック対象文書は、「私はPCを買った」であるものとして説明する。また、ルール格納部22には、上記した図3に示すチェックルール221が格納されているものとする。
この場合、チェック対象文書「私はPCを買った」には、チェックルール221に含まれる適合語「PC」がある。したがって、文書校正部32は、チェックルール221に含まれる適合語「PC」および修正候補「パソコン」を校正結果として取得し、チェック対象文書に書き出す。
これにより、校正されたチェック対象文書(に書き出された校正結果)として、例えばチェック対象文書「私は<エラー rule=“1” 修正候補=“パソコン”>PC</エラー>を買った」が出力される。
このように、校正結果の表現には、例えばXML(eXtensible Markup Language)形式のタグが使用され、「エラー」要素で修正対象となる語(つまり、適合語)を囲み、要素の属性として適用されたチェックルール(を識別するためのルール番号)および修正候補が表現される。
つまり、チェック対象文書に書き出された校正結果には、適合語、修正候補および当該校正に適用されたチェックルール(当該適合語および修正候補を含むチェックルール)を識別するためのルール番号が含まれる。
このような校正結果が書き出されたチェック対象文書が出力部33を介して出力されることにより、ユーザは、チェック対象文書に対する校正内容、つまり、チェック対象文書に含まれる「PC(適合語)」が「パソコン(修正候補)」に校正されたことを確認することができる。
なお、上記したステップS11においてルール格納部22内に有効なチェックルールがないと判定された場合、文書校正処理は終了される。つまり、この場合には、有効なチェックルールがルール格納部22内に存在しないため、チェック対象文書の校正は行われない。
また、上記したステップS14においてチェック対象文書中に適合語がないと判定された場合、ステップS16の処理が実行される。
次に、図6のフローチャートを参照して、前述したチェックルール評価処理(図4に示すステップS5の処理)の処理手順について説明する。このチェックルール評価処理は、ルール評価部34およびルール更新部35によって実行される。
まず、ルール評価部34は、チェック対象文書(上記した図4に示すステップS4において入力部31によって再度入力されたチェック対象文書)に基づいて、ユーザによって校正結果通りに当該チェック対象文書が修正されているか否かを判定する(ステップS21)。このチェック対象文書には、上記した文書校正処理においてチェック対象文書に書き出された校正結果に対するユーザの修正内容が含まれている。ルール評価部34は、チェック対象文書に対する校正内容およびユーザの修正内容を比較することによって判定処理を実行する。
換言すれば、ルール評価部34は、チェック対象文書に書き出された校正結果に対するユーザの修正内容が当該校正結果に含まれる適合語(第1の文字列)を当該校正結果に含まれる修正候補(第2の文字列)に修正するものであるか否かを判定する。
ここで、上記したチェック対象文書「私はPCを買った」が校正されたチェック対象文書(に書き出された校正結果)としてチェック対象文書「私は<エラー rule=“1” 修正候補=“パソコン”>PC</エラー>を買った」がユーザに対して提示されたものとする。
この場合、図4に示すステップS4において入力部31によって再度入力されたチェック対象文書において、ユーザに提示されたチェック対象文書「私は<エラー rule=“1” 修正候補=“パソコン”>PC</エラー>を買った」の「PC(適合語)」が「パソコン(修正候補)」に修正されている場合には校正結果通りにチェック対象文書が修正されていると判定される。
一方、図4に示すステップS4において入力部31によって再度入力されたチェック対象文書において、ユーザに提示されたチェック対象文書「私は<エラー rule=“1” 修正候補=“パソコン”>PC</エラー>を買った」の「PC(適合語)」が「パソコン(修正候補)」に修正されていない場合には校正結果通りにチェック対象文書が修正されていないと判定される。
校正結果通りにチェック対象文書が修正されている、つまり、ユーザの修正内容が適合語を修正候補に修正するものであると判定された場合(ステップS21のYES)、ルール評価部34は、当該チェック対象文書に書き出された校正結果に含まれるルール番号(ここでは、ルール番号「1」)によって識別されるチェックルールが有効である旨を示す値(以下、有効値と表記)に1を加算する(ステップS22)。
一方、校正結果通りにチェック対象文書が修正されていない、つまり、ユーザの修正内容が適合語を修正候補に修正するものでないと判定された場合(ステップS21のNO)、ルール評価部34は、当該チェック対象文書に書き出された校正結果に含まれるルール番号によって識別されるチェックルールが無効である旨を示す値(以下、無効値と表記)に1を加算する(ステップS23)。
上記したチェックルールの有効値および無効値は、ルール格納部22に格納されているチェックルール毎に、例えばルール評価格納部34の内部に保持されている。また、チェックルールの有効値および無効値は、当該チェックルールを用いてチェック対象文書が校正される度に蓄積される。
上記したステップS22またはステップS23の処理が実行されると、ルール評価部34は、チェック対象文書に書き出された校正結果に含まれるルール番号によって識別されるチェックルールの有効値および無効値を当該チェックルールの評価結果として、ルール更新部35に通知する(ステップS24)。
ルール更新部35は、ルール評価部34からチェックルールの評価結果を受け取ると、当該チェックルールの評価結果に基づいて当該チェックルールの有効値および無効値の合計値に対する当該有効値の割合が予め定められた値(以下、閾値と表記)以上であるか否かを判定する(ステップS25)。
例えばルール格納部22に格納されているチェックルール221の有効値が4、無効値が6であり、閾値が0.6である場合を想定する。この場合、チェックルール221の有効値および無効値の合計値に対する有効値の割合は、0.4(4/10)である。この場合、ルール更新部35は、チェックルール221の有効値の割合は閾値以上でないと判定する。
上記したようにチェックルールの有効値の割合が閾値以上でないと判定された場合(ステップS25のNO)、ルール更新部35は、ルール格納部22を参照して当該チェックルールを無効化する(ステップS26)。つまり、ルール更新部35は、ルール格納部22に格納されているチェックルールに含まれるフラグを当該チェックルールが無効であることを示すフラグに変更することにより当該チェックルールを無効化する。これにより、無効化されたチェックルールは、次回以降の文書校正処理においては利用されなくなる。
一方、チェックルールの有効値の割合が閾値以上であると判定された場合(ステップS25のYES)、ステップS26の処理は実行されない。つまり、チェックルールは無効化されないため、当該チェックルールは、次回以降の文書校正処理においても利用される。
なお、上記したチェックルール評価処理は、チェック対象文書に書き出されている校正結果毎に実行される。
上記したように本実施形態においては、ルール格納部22に格納されているチェックルールに基づいて、ユーザによって指定された文書(チェック対象文書)が校正される。また、本実施形態においては、校正されたチェック対象文書(に書き出された校正結果)に対するユーザの修正内容に基づいて当該校正に利用されたチェックルールの有効性が評価される。また、本実施形態においては、チェックルールの評価結果に基づいて、有効性の低いチェックルールは無効化される。
これにより、本実施形態においては、ユーザ等に負担をかけることなくチェックルールを評価することができるため、容易に当該チェックルールの精度を向上させることが可能となる。
[第2の実施形態]
次に、図7を参照して、本発明の第2の実施形態について説明する。図7は、本実施形態に係る文書校正装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
また、本実施形態に係る文書校正装置のハードウェア構成は前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。
本実施形態においては、チェック対象文書に対するユーザの修正内容(修正結果)に基づいて自動的にチェックルールを追加する点が、前述した第1の実施形態とは異なる。
図7に示すように、本実施形態に係る文書校正装置300は、ルール追加部301を含む。本実施形態において、ルール追加部301は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
ルール追加部301は、チェック対象文書における、当該チェック対象文書に書き出された校正結果(に含まれる適合語)以外の文字列に対するユーザの修正内容に基づいてチェックルールを作成する。ルール追加部301は、作成されたチェックルールを、ルール更新部35を介してルール格納部22に追加する。
次に、図8のフローチャートを参照して、本実施形態に係る文書校正装置300の処理手順について説明する。
まず、前述した第1の実施形態と同様に、図4に示すステップS1〜ステップS5の処理に相当するステップS31〜ステップS36の処理が実行される。
次に、ルール追加部301は、ステップS34において入力部31によって再度入力されたチェック対象文書に書き出された校正結果以外(の文字列)に対するユーザの修正内容に基づいて、チェックルールを追加する処理(以下、チェックルール追加処理と表記)を実行する(ステップS36)。
ここで、図9のフローチャートを参照して、図7に示すルール追加部301によるチェックルール追加処理の処理手順について説明する。
まず、ルール追加部301は、図8に示すステップS34において入力部31によって再度入力されたチェック対象文書を参照して、当該チェック対象文書において校正結果以外の文字列に対するユーザの修正があるか否かを判定する(ステップS41)。
なお、本実施形態においては、チェック対象文書においてユーザが修正(文字列を追加または削除等)した箇所は例えば文書編集ソフトウェアである変更履歴機能等により認識できるものとする。
校正結果以外の文字列に対するユーザの修正があると判定された場合(ステップS41のYES)、ルール追加部301は、チェック対象文書から当該文字列を含む文(以下、修正文と表記)を1つ取り出す(ステップS42)。
ルール追加部301は、取り出された修正文を形態素解析する(ステップS43)。形態素解析により、修正文を構成する単語の品詞が取得される。ルール追加部301は、形態素解析結果に基づいて、取り出された修正文におけるユーザによって修正された文字列を品詞レベル(単語)で特定する(ステップS44)。
ルール追加部301は、特定された文字列の品詞に基づいて適合語および修正候補を決定する。
ルール追加部301は、特定された文字列(単語)の品詞が例えば名詞であれば、ユーザによる修正前の当該文字列を適合語、修正後の当該文字列を修正候補として決定する。
また、ルール追加部301は、特定された文字列(単語)の品詞が例えば助詞であれば、ユーザによる修正前の当該文字列および当該文字列の後ろの動詞を適合語、修正後の当該文字列および当該文字列の後ろの動詞を修正候補として決定する。
また、ルール追加部301は、特定された文字列(単語)の品詞が例えば助数詞であれば、修正前の当該文字列およびその基数詞を適合語、修正後の当該文字列およびその基数詞を修正候補として決定する。
なお、適合語および修正候補を決定する方法は、上記した方法以外であっても構わない。
ルール追加部301は、上記したように決定された適合語および修正候補を含むチェックルールを作成する(ステップS45)。ここでルール追加部301によって作成されたチェックルールには、当該チェックルールが有効であることを示すフラグが含まれる。
次に、ルール追加部301は、上記したステップS42〜ステップS45の処理が実行された文字列の他にユーザによって修正された文字列(校正結果以外の文字列)があるか否かを判定する(ステップS46)。
他にユーザによって修正された文字列があると判定された場合(ステップS46のYES)、上記したステップS42に戻って処理が繰り返される。
一方、他にユーザによって修正された文字列がないと判定された場合(ステップS46のNO)、ルール追加部301は、ステップS45において作成されたチェックルールを、ルール更新部35を介してルール格納部22に追加する(ステップS47)。
ここで、上記したチェックルール追加処理について具体的に説明する。ここでは、チェック対象文書に含まれる例えば「私は新しいワードプロセッサを買った」という文がユーザによって「私は新しいワープロを買った」という文に修正されたものとする。
この例によれば、ユーザは、「ワードプロセッサ」と記述された文字列を「ワープロ」という文字列に修正している。つまり、修正前の文字列として「ワードプロセッサ」、修正後の文字列として「ワープロ」が品詞レベルで特定される。
この場合、特定された文字列の品詞は名詞であるため、修正前の文字列「ワードプロセッサ」が適合語、修正後の文字列「ワープロ」が修正候補として決定される。
したがって、この例においては適合語「ワードプロセッサ」、修正候補「ワープロ」およびフラグ「有効」を含むチェックルールが追加される。
上記したように本実施形態においては、チェック対象文書に書き出された校正結果(に含まれる適合語)以外の文字列に対する修正に基づいて自動的にチェックルールが作成され、当該チェックルールがルール格納部22に追加される。このため、本実施形態においては、例えばユーザが手動で新たなチェックルールを作成する場合と比較して、容易に新たなチェックルールを追加することが可能となる。
[第3の実施形態]
次に、図10を参照して、本発明の第3の実施形態について説明する。図10は、本実施形態に係る文書校正装置の主として機能構成を示すブロック図である。なお、前述した図7と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図7と異なる部分について述べる。
また、本実施形態に係る文書校正装置のハードウェア構成は前述した第1および第2の実施形態と同様であるため、適宜、図1を用いて説明する。
本実施形態においては、チェックルール追加処理において予め用意されている集約規則を適用することにより追加されるチェックルールの数を削減する点が、当該第2の実施形態とは異なる。
図10に示すように、本実施形態に係る文書校正装置310は、ルール追加部311を含む。本実施形態において、ルール追加部311は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
また、文書校正装置310は、集約規則格納部23を含む。本実施形態において、集約規則格納部23は、例えば外部記憶装置20に格納される。
集約規則格納部23には、チェックルールを集約するための集約規則が予め格納されている。
ルール追加部311は、前述した第2の実施形態におけるルール追加部301の機能に加えて、集約規則格納部23に格納されている集約規則を適用することにより、ルール格納部22に追加するチェックルールを削減する機能を有する。
図11のフローチャートを参照して、図10に示すルール追加部311によるチェックルール追加処理の処理手順について説明する。なお、ルール追加部311によるチェックルール追加処理以外の処理については、前述した第2の実施形態と同様であるため、その詳しい説明を省略する。
まず、前述した図9に示すステップS41〜ステップS46の処理に相当するステップS51〜ステップS56の処理が実行される。
次に、ルール追加部311は、集約規則格納部23に格納されている集約規則に基づいて、ステップS55において作成されたチェックルールを集約する(ステップS57)。
ここで、図12は、集約規則格納部23のデータ構造の一例を示す。図12に示すように、集約規則格納部23には、集約規則231〜233が格納されているものとする。
集約規則231〜233には、優先度が予め設定されている。つまり、ルール追加部311は、設定されている優先度順に集約規則231〜233を適用する。
なお、図12に示す例では、集約規則231の優先度は1であり、集約規則232の優先度は2であり、集約規則233の優先度は3である。
図12に示す集約規則231は、「[0−9]+A/助数詞 → {基数詞}A」である。この集約規則231によれば、ルール追加部311によって作成されたチェックルールが任意の長さの0から9という数値の後ろに助数詞がつくチェックルールである場合、数値の部分が任意の基数詞(例えば1個、2個と数を数える上で「1」、「2」のように数を表している部分)であれば1つのチェックルールに集約することを示す。この集約規則231において、Aは任意の助数詞を示す。
ここで、図13を参照して、図12に示す集約規則231が適用される具体例について説明する。ここでは、図13に示す適合語「1個」および修正候補「1組」を含むチェックルールと適合語「2個」および修正候補「2組」を含むチェックルールとがルール追加部311によって作成された場合を想定する。
この場合、集約規則231によれば、「1個」、「2個」のような基数詞部分のみが異なる適合語について、それぞれ個別のチェックルールとするのではなく、基数詞が何であっても助数詞部分のみを修正するような1つのチェックルールに集約される。
つまり、図13に示すように、適合語「1個」および修正候補「1組」を含むチェックルールと適合語「2個」および修正候補「2組」を含むチェックルールは、適合語「{基数詞}個」および修正候補「{基数詞}組」を含むチェックルールに集約される。この場合、集約された適合語「{基数詞}個」および修正候補「{基数詞}組」を含むチェックルールのみがルール格納部22に追加されるため、集約規則231が適用されることによりルール格納部22に追加されるチェックルールの数を削減できる。
これにより、例えばチェック対象文書中に「3個」と言う表現が出現した場合、「3」の部分が基数詞に該当するため、上記した適合語「{基数詞}個」および修正候補「{基数詞}組」を含むチェックルールを利用(適用)することで「3組」という表現に校正することができる。
また、図12に示す集約規則232は、「A/助詞+B/動詞 → A{B*}」である。この集約規則232によれば、ルール追加部311によって作成されたチェックルールが意味的に関連のある動詞を集約し、1つのチェックルールとすることを示す。これにより、ある動詞につく助詞に対して適合語による校正を行う場合、別の動詞につく助詞に対しても同様に助詞に対して校正が行われる。この集約規則232において、Aは任意の助詞を示し、Bは任意の動詞を示す。また、B*は任意の数の動詞を示す。
ここで、図14を参照して、図12に示す集約規則232が適用される具体例について説明する。ここでは、図14に示す適合語「〜て食べる」および修正候補「〜を食べる」を含むチェックルールと適合語「〜て飲む」および修正候補「〜を飲む」を含むチェックルールとがルール追加部311によって作成された場合を想定する。
この場合、集約規則232によれば、適合語「〜て食べる」および修正候補「〜を食べる」を含むチェックルールと適合語「〜て飲む」および修正候補「〜を飲む」を含むチェックルールは、適合語「〜て{食べる、飲む}」および修正候補「〜を{食べる、飲む}」を含むチェックルールに集約される。この場合、集約された適合語「〜て{食べる、飲む}」および修正候補「〜を{食べる、飲む}」を含むチェックルールのみがルール格納部22に追加されるため、集約規則232が適用されることによりルール格納部22に追加されるチェックルールの数を削減できる。
これにより、例えばチェック対象文書中に「〜て食べる」または「〜て飲む」という表現が出現した場合、適合語「〜て{食べる、飲む}」および修正候補「〜を{食べる、飲む}」を含む1つのチェックルールであっても当該表現を「〜を食べる」または「〜を飲む」という表現に校正することができる。
なお、集約規則232の優先度は上記したように2であるため、当該集約規則232は、優先度が1である集約規則231が適用されないチェックルールについて適用される。
また、図12に示す集約規則233は、「threshold=5」である。この集約規則233によれば、ルール追加部311によって作成されたチェックルールのうち、ユーザが実際に修正した回数が5回未満のチェックルールについてはルール格納部22には追加されない、つまり、当該追加の候補から削除されることを示す。
ここで、図15を参照して、図12に示す集約規則233が適用される具体例について説明する。ここでは、図15に示す適合語「コンピューター」および修正候補「コンピュータ」を含むチェックルールと適合語「サーバー」および修正候補「サーバ」を含むチェックルールとがルール追加部311によって作成された場合を想定する。
この場合において、図15に示すように、チェック対象文書中においてユーザが「コンピューター」を「コンピュータ」に修正した回数(箇所)が3、「サーバー」を「サーバ」と修正書いた回数が10であるものとする。
この場合、適合語「コンピューター」および修正候補「コンピュータ」を含むチェックルールは、ルール格納部22には追加されずに削除される。一方、適合語「サーバー」および修正候補「サーバ」を含むチェックルールは、ルール格納部22に追加されることになる。
このように、集約規則233によれば、ルール格納部22に追加されるチェックルールの数を削減できる。
なお、集約規則233の優先度は上記したように3であるため、当該集約規則233は、優先度が1である集約規則231および優先度が2である集約規則233が適用されないチェックルールについて適用される。
上記したようにルール追加部311によって作成されたチェックルールに対して集約規則231〜233が適用されることにより集約されたチェックルールがルール更新部35を介してルール格納部22に追加される(ステップS58)。
上記したように本実施形態においては、チェック対象文書に書き出された校正結果以外の文字列に対するユーザの修正に基づいて自動的に生成されたチェックルールに集約規則格納部23に格納されている集約規則を適用することにより、当該チェックルールの数が削減される。
前述した第2の実施形態においては、ユーザによって修正されたチェック対象文書に書き出された校正結果以外の箇所(文字列)の全てについてチェックルールが作成されるため、ルール格納部22に追加されるチェックルールの数が膨大になる場合がある。これに対して、本実施形態においては、このような場合であっても集約規則を適用することによりルール格納部22に追加されるチェックルールの数を削減することが可能となる。
なお、本実施形態においては、集約規則格納部23に集約規則231〜233が格納されているものとして説明したが、当該集約規則231〜233以外の集約規則が格納されていても構わない。
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
10…コンピュータ、20…外部記憶装置、22…ルール格納部、23…集約規則格納部、30,300,310…文書校正装置、31…入力部、32…文書校正部、33…出力部、34…ルール評価部、35…ルール更新部、301,311…ルール追加部。

Claims (5)

  1. 校正対象となる第1の文字列および当該第1の文字列の校正結果となる第2の文字列を含むチェックルールを格納するルール格納手段を有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書校正装置において、前記コンピュータによって実行される文書校正プログラムであって、
    前記コンピュータに、
    ユーザによって指定された文書であって、文字列を含む文書を入力するステップと、
    前記ルール格納手段に格納されているチェックルールに含まれる第1の文字列が前記入力された文書に含まれているかを判定するステップと、
    前記第1の文字列が前記入力された文書に含まれていると判定された場合、当該第1の文字列および前記ルール格納手段に格納されているチェックルールに含まれる第2の文字列を含む校正結果を前記入力された文書に書き出すステップと、
    前記校正結果が書き出された文書を出力するステップと、
    前記出力された文書に書き出された校正結果に対する前記ユーザの修正内容に基づいて、前記ルール格納手段に格納されているチェックルールの有効性を評価するステップと、
    前記ルール格納手段に格納されているチェックルールの有効性の評価結果に基づいて、当該チェックルールを無効化するステップと
    を実行させるための文書校正プログラム。
  2. 前記ルール格納手段に格納されているチェックルールは、当該チェックルールが有効または無効であることを示すフラグを含み、
    前記判定するステップにおいては、前記チェックルールが有効であることを示すフラグを含むチェックルールに含まれる第1の文字列が前記入力された文書に含まれているかを判定し、
    前記チェックルールの有効性を評価するステップは、
    前記出力された文書に書き出された校正結果に対するユーザの修正内容が当該校正結果に含まれる第1の文字列を当該校正結果に含まれる第2の文字列に修正するものであるかを判定するステップと、
    前記校正結果に含まれる第1の文字列を当該校正結果に含まれる第2の文字列に修正するものであると判定された場合、前記ルール格納手段に格納されているチェックルールの有効値に1を加算するステップと、
    前記校正結果に含まれる第1の文字列を当該校正結果に含まれる第2の文字列に修正するものでないと判定された場合、前記ルール格納手段に格納されているチェックルールの無効値に1を加算するステップと
    を含み、
    前記チェックルールを無効化するステップは、
    前記ルール格納手段に格納されているチェックルールの有効値および無効値に基づいて、当該有効値の割合が予め定められた値以上であるかを判定するステップと、
    前記有効値の割合が予め定められた値以上でないと判定された場合、前記チェックルールに含まれるフラグを当該チェックルールが無効であることを示すフラグに変更するステップと
    を含む
    ことを特徴とする請求項1記載の文書校正プログラム。
  3. 前記コンピュータに、
    前記出力された文書における、当該出力された文書に書き出された校正結果に含まれる第1の文字列以外の文字列に対する前記ユーザの修正内容に基づいてチェックルールを作成するステップと、
    前記作成されたチェックルールを前記ルール格納手段に格納するステップと
    を更に実行させることを特徴とする請求項1記載の文書校正プログラム。
  4. 前記コンピュータに、前記チェックルールを集約するための集約規則に基づいて、前記作成されたチェックルールを集約するステップを更に実行させ、
    前記格納するステップにおいては、前記集約されたチェックルールを前記ルール格納手段に格納する
    ことを特徴とする請求項3記載の文書校正プログラム。
  5. 校正対象となる第1の文字列および当該第1の文字列の校正結果となる第2の文字列を含むチェックルールを格納するルール格納手段と、
    ユーザによって指定された文書であって、文字列を含む文書を入力する入力手段と、
    前記ルール格納手段に格納されているチェックルールに含まれる第1の文字列が前記入力された文書に含まれているかを判定する判定手段と、
    前記第1の文字列が前記入力された文書に含まれていると判定された場合、当該第1の文字列および前記ルール格納手段に格納されているチェックルールに含まれる第2の文字列を含む校正結果を前記入力された文書に書き出す文書校正手段と、
    前記校正結果が書き出された文書を出力する出力手段と、
    前記出力された文書に書き出された校正結果に対する前記ユーザの修正内容に基づいて、前記ルール格納手段に格納されているチェックルールの有効性を評価するルール評価手段と、
    前記ルール格納手段に格納されているチェックルールの有効性の評価結果に基づいて、当該チェックルールを無効化するルール更新手段と
    を具備することを特徴とする文書校正装置。
JP2009142100A 2009-06-15 2009-06-15 文書校正プログラムおよび文書校正装置 Pending JP2010287154A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009142100A JP2010287154A (ja) 2009-06-15 2009-06-15 文書校正プログラムおよび文書校正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009142100A JP2010287154A (ja) 2009-06-15 2009-06-15 文書校正プログラムおよび文書校正装置

Publications (1)

Publication Number Publication Date
JP2010287154A true JP2010287154A (ja) 2010-12-24

Family

ID=43542786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009142100A Pending JP2010287154A (ja) 2009-06-15 2009-06-15 文書校正プログラムおよび文書校正装置

Country Status (1)

Country Link
JP (1) JP2010287154A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019012344A (ja) * 2017-06-29 2019-01-24 富士通株式会社 評価プログラム、評価装置および評価方法
CN114399774A (zh) * 2022-01-19 2022-04-26 润申标准化技术服务(上海)有限公司 文件处理方法、装置和电子设备
CN114862367A (zh) * 2022-05-31 2022-08-05 浪潮通用软件有限公司 一种自动审核单据方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484261A (ja) * 1990-07-26 1992-03-17 Nec Corp 誤り表記検索方式
JPH0498453A (ja) * 1990-08-13 1992-03-31 Chubu Nippon Denki Software Kk 日本語ワードプロセッサの誤用語検出訂正機構
JPH0916597A (ja) * 1995-06-30 1997-01-17 Toshiba Corp 文章推敲装置及び方法
JPH09293074A (ja) * 1996-04-25 1997-11-11 Toshiba Corp 文書作成装置及び誤入力補正方法
JP2004536369A (ja) * 2001-02-13 2004-12-02 株式会社ジャストシステム テキストに対するユーザの変更および修正によって学習するコンピュータを用いた学習方法および学習装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484261A (ja) * 1990-07-26 1992-03-17 Nec Corp 誤り表記検索方式
JPH0498453A (ja) * 1990-08-13 1992-03-31 Chubu Nippon Denki Software Kk 日本語ワードプロセッサの誤用語検出訂正機構
JPH0916597A (ja) * 1995-06-30 1997-01-17 Toshiba Corp 文章推敲装置及び方法
JPH09293074A (ja) * 1996-04-25 1997-11-11 Toshiba Corp 文書作成装置及び誤入力補正方法
JP2004536369A (ja) * 2001-02-13 2004-12-02 株式会社ジャストシステム テキストに対するユーザの変更および修正によって学習するコンピュータを用いた学習方法および学習装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019012344A (ja) * 2017-06-29 2019-01-24 富士通株式会社 評価プログラム、評価装置および評価方法
CN114399774A (zh) * 2022-01-19 2022-04-26 润申标准化技术服务(上海)有限公司 文件处理方法、装置和电子设备
CN114862367A (zh) * 2022-05-31 2022-08-05 浪潮通用软件有限公司 一种自动审核单据方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109815459A (zh) 生成被调整到目标受众词汇的文本内容的目标概要
US10062032B2 (en) Question resolution processing in deep question answering systems
US20120324391A1 (en) Predictive word completion
JP2011511341A5 (ja)
JP6663826B2 (ja) 計算機及び応答の生成方法
WO2019227716A1 (zh) 流感预测模型的生成方法、装置及计算机可读存储介质
US11113609B2 (en) Machine-learning system and method for identifying same person in genealogical databases
JP6584795B2 (ja) 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
JP2008083952A (ja) 辞書作成支援システム、方法及びプログラム
JP4936295B2 (ja) コンピュータ・システムにより実行されるアクセシビリティ・メタデータの作成・拡張・検証を支援する方法
Geerdens et al. Conditional copula models for right-censored clustered event time data
US8676791B2 (en) Apparatus and methods for providing assistance in detecting mistranslation
Luo et al. A neural network approach to chemical and gene/protein entity recognition in patents
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
JP2010287154A (ja) 文書校正プログラムおよび文書校正装置
US20140222722A1 (en) Adaptive system for continuous improvement of data
JP5117590B2 (ja) 文書処理装置およびプログラム
JP2004287683A (ja) 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法
US20220269860A1 (en) Evaluation apparatus and evaluation method
GB2503223A (en) Redrafting text strings using a vocabulary
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP6425732B2 (ja) 文章検索システム、極性判定ルール修正システム、文章検索方法及び極性判定ルール修正方法
JP5039158B2 (ja) 文書処理プログラムおよび文書処理装置
JP7286291B2 (ja) 固有表現抽出装置、方法およびプログラム
JP2010257412A (ja) 情報フィルタリング装置、情報フィルタリング方法及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313