JP4940325B2

JP4940325B2 - 文書校正支援装置、方法およびプログラム

Info

Publication number: JP4940325B2
Application number: JP2010076047A
Authority: JP
Inventors: 博和鈴木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-03-29
Filing date: 2010-03-29
Publication date: 2012-05-30
Anticipated expiration: 2030-03-29
Also published as: JP2011209941A; US8532980B2; US20110238411A1

Description

本発明は、技術文書の校正支援システムに関し、特に造語の検出機能を有する文書校正支援装置、方法およびプログラムに関する。

技術者が報告書や論文、特許などの技術文書を作成し、この技術文書をその分野の専門家でない翻訳者が他言語に翻訳する場合がある。文書作成者が使用した複合語(造語)を翻訳する際、文書を作成した専門家には意味または内容が明らかな用語でも、翻訳者にとっては前提となる技術的知識の欠如によって、どのように翻訳すればよいのかわからないといった問題がある。この場合、複合語やその部分単語列からなる複合語のコーパス頻度を調べ、その頻度が低いものを利用頻度が小さい複合語、すなわち造語として警告するという方法がある（例えば、特許文献１参照）。

特開２００１−２４９９２１号公報

しかしながら、コーパス頻度を用いるだけでは翻訳者の翻訳作業において訳語の判断が難しい場合がある。例えば、名詞「事象」とサ変名詞「抽出」とを組み合わせた造語「事象抽出」という複合語が使用された場合を仮定する。この場合、「事象抽出」という用語のコーパス頻度が予め設定した閾値よりも大きければ、この複合語は造語として判定されない。しかし、専門家でない翻訳者が「事象抽出」という用語を他言語、例えば英語に翻訳しようする場合、「事象」の訳語を“event”、「抽出」の訳語を“extraction”とすると、「事象抽出」を“event extraction”と訳せばよいのか、“extraction from event”と訳せばよいのか、あるいは“extraction of event”と訳せばよいかという判断が難しい。
また、複合語「事象抽出」が造語かどうかを判定する方法として、例えば単純に「事象」「抽出」の２語を用いた文字列検索や「事象＊抽出」のようなワイルドカード検索が考えられる。しかし、これらの方法では、「事象データ系列抽出」または「事象データにより関連性が抽出される」などのような単語列が検索される可能性があり、「事象抽出」という複合語が造語かどうかの判定は難しい。よって、「事象抽出」という用語の使用頻度だけでは、翻訳者はその用語が造語であるかどうかを判断することができず、翻訳者から執筆者への問い合わせ、執筆者からの回答、および元文書の校正作業が必要となり、結果として翻訳終了までに多くの時間を要してしまう問題がある。

本発明は、上述の課題を解決するためになされたものであり、文書校正の精度を高め作業効率を向上させることができる文書校正支援装置、方法およびプログラムを提供することを目的とする。

上述の課題を解決するため、本発明に係る文書校正支援装置は、校正処理の対象となる１以上の文を含む校正文書または登録処理の対象となる１以上の文を含む登録文書の入力を受け付ける文書入力部と、前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成する文書解析部と、前記形態素解析情報を参照して、名詞となりうる２以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出する造語候補検出部と、前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報を格納する構文情報データベースと、前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定する構文情報検索部と、前記造語を含むメッセージを表示する警告表示部と、を具備することを特徴とする。

本発明の文書校正支援装置、方法およびプログラムによれば、文書校正の精度を高め作業効率を向上させることができる。

本実施形態に係る文書校正支援装置を示すブロック図。本実施形態に係る文書校正支援装置の造語判定処理を示すフローチャート。構文情報データベースに格納される構文情報の一例を示す図。インデックステーブルの一例を示す図。本実施形態の変形例に係る文書校正支援装置の造語判定処理を示すフローチャート。

以下、図面を参照しながら本発明の実施形態に係る文書校正支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
次に、本実施形態に係る文書校正支援装置について図１を参照して詳細に説明する。
本実施形態に係る文書校正支援装置１００は、文書入力部１０１、文書解析部１０２、造語候補検出部１０３、構文情報管理部１０４、構文情報データベース（ＤＢ）１０５、構文情報検索部１０６、校正制御部１０７、および警告表示部１０８を含む。

文書入力部１０１は、文書の校正処理を行う場合に校正処理の対象となる校正文書の入力を受け付け、文書の登録処理を行う場合に登録処理の対象となる登録文書の入力を受け付ける。登録文書または校正文書として入力される文書は、文書全体またはその一部分から成る１以上の文を含む文書である。文書は、日本語による文書だけに限らずどのような言語で書かれていてもよく、例えば中国語、韓国語、フランス語で書かれた文書でもよい。

文書解析部１０２は、文書の登録処理を行う場合（すなわち、文書入力部１０１に登録文書が入力された場合）は、後述する校正制御部１０７から登録文書を受け取り、登録文書中の各文を形態素解析、構文解析、および係り受け解析して、登録文書中の各文に対する解析情報を生成する。解析情報には、単語間の意味的なつながりを示す依存関係が含まれる。依存関係の具体例としては、例えば「犬が歩く」という文には、「犬」と「歩く」との単語間にガ格によって結ばれる依存関係がある。また、文書解析部１０２は、文書の校正処理を行う場合（すなわち、文書入力部１０１に校正文書が入力された場合）は、校正制御部１０７から校正文書を受け取り、校正文書中の各文を形態素解析して形態素解析情報を生成する。なお、形態素解析、構文解析、および係り受け解析については、一般的な処理をそれぞれ用いるため、ここでの詳細な説明は省略する。

造語候補検出部１０３は、文書の校正処理を行う場合は、文書解析部１０２から校正文書中の各文に対する形態素解析情報を受け取り、形態素解析情報を参照して造語候補文字列があるかどうかを検出する。造語候補文字列は、名詞となりうる２以上の語が連続する複合語（以下、名詞連続関係を有する複合語ともいう）を示す。名詞となりうる語としては、例えば名詞、サ変名詞がある。サ変名詞の具体例としては、「処理」という単語があり、「処理＋する」といった名詞に「する」をつけると動詞にもなる単語である。

構文情報管理部１０４は、文書の登録処理を行う場合は、文書解析部１０２から後述する校正制御部１０７を通じて登録文書中の文とその解析情報とを受け取り、解析情報を後述する構文情報データベース１０５に登録するための管理を行う。

構文情報データベース１０５は、文書の登録処理を行う場合は、構文情報管理部１０４から登録文書中の各文に対する解析情報を受け取り、登録文書中の文とその解析情報とを構文情報として格納する。構文情報データベース１０５に格納される構文情報については、図３を参照して後述する。

構文情報検索部１０６は、造語候補検出部１０３から後述する校正制御部１０７を通じて造語候補文字列を受け取る。そして、構文情報検索部１０６は、造語候補文字列を構成する構成語が格要素となり、かつ構成語が名詞連続関係以外の依存関係を有する文（以下、依存関係文という）があるかどうかを、構文情報データベース１０５に格納されている構文情報から検索する。その後、構文情報検索部１０６は、依存関係文があれば造語候補文字列を造語であると判定する。格要素の具体的な判定については後述する。

校正制御部１０７は、文書入力部１０１から文書の校正処理を行う場合には校正文書を受け取り、文書の登録処理を行う場合には登録文書を受け取る。校正処理を行う場合は、校正制御部１０７は、造語候補検出部１０３から造語候補文字列を受け取り、構文情報検索部１０６の要求に応じて造語候補文字列を構文情報検索部１０６に送る。また、校正制御部１０７は、構文情報検索部１０６において造語候補文字列が造語であると判定された場合は、構文情報検索部１０６から造語と依存関係文とを受け取る。さらに、校正制御部１０７は、後述する警告表示部１０８の要求に応じて造語と依存関係文とを警告表示部１０８に送る。
登録処理を行う場合は、校正制御部１０７は、文書解析部１０２から校正文書中の文とその解析情報とを受け取り、構文情報管理部１０４の要求に応じて文とその解析情報とを構文情報管理部１０４に送る。なお、登録処理を行う場合に入力される登録文書は、インターネット等に保持されている文書群から抽出してもよいし、ユーザが過去に作成した文書でも現在作成している文書の既に執筆済みの部分でもよい。

警告表示部１０８は、構文情報検索部１０６から校正制御部１０７を通じて造語と依存関係文とを受け取り、警告メッセージとして表示する。警告メッセージの具体例については後述する。

次に、本実施形態に係る文書校正支援装置の造語判定処理について図２のフローチャートを参照して詳細に説明する。なお、入力文書は日本語で書かれた文書とする。

ステップＳ２０１では、文書解析部１０２が、校正文書中の各文に関して形態素解析を行い、解析情報を生成する。

ステップＳ２０２では、造語候補検出部１０３が、解析情報を参照して造語候補文字列があるかどうかを検出する。ここでは、造語候補文字列は名詞またはサ変名詞の２以上の語が連続する文字列とする。このような造語候補文字列があればステップＳ２０３に進み、造語候補文字列がなければステップＳ２０５へ進む。

ステップＳ２０３では、構文情報検索部１０６が、構文情報データベース１０５から造語候補文字列を構成する構成語がガ格、ヲ格、ノ格などの助詞の格要素となり、かつ構成語に関する依存関係文があるかどうかを検索する。依存関係文があれば、造語候補文字列は造語であるとしてステップＳ２０４へ進み、依存関係文がなければ、ステップＳ２０５へ進む。

ステップＳ２０４では、警告表示部１０８が造語と依存関係文とを警告メッセージとして表示し、ユーザに造語が使用されていることを通知する。

ステップＳ２０５では、校正制御部１０７が校正文書中の次の文を読み込み、次の文に対して上述した処理と同様の処理を行うためステップＳ２０１へ戻る。

ここで、具体例を用いて本実施形態に係る文書校正支援装置の造語判定処理について説明する。
ここでは、以下の日本語文（１）を校正文書中に存在している文として造語判定処理をする場合を考える。
「崩壊熱は、燃料寿命末期において、炉停止してから１時間後で約０．４ＭＷｔである。」・・・（１）
この日本語文（１）において、「炉停止してから１時間後」という部分を翻訳する場合、この文書が示す技術内容を正確に翻訳するためには、「(誰か、もしくは何かが)炉を停止処理してから１時間後」であるのか、または「炉が停止してから１時間後」であるのかという単語間の意味的なつながりを知ることが重要である。しかし、原子力分野に詳しくないユーザが翻訳を行おうとした場合にユーザが技術内容を判断することは難しい。そこで、本実施形態に係る文書校正支援装置の造語判定処理を行う。

まず、文書解析部１０２が、日本語文（１）について形態素解析をおこなった結果を（２）に示す。
崩壊熱（名詞）／は（助詞）／、／燃料寿命（名詞）／末期（名詞）／に（助詞）／お（動詞）／て（接続助詞）／、／炉（名詞）／停止（サ変名詞）／する（動詞）／て（接続助詞）／から（接続助詞）／１（数字）／時間（数量詞）／後（名詞）／で（助詞）／約（冠数詞）／０．４（数字）／ＭＷｔ（英未）／であ（助動詞）／。（句点）・・・（２）
ここで、“／”は形態素の境界を表し、「見出し語語幹（品詞）」というフォーマットで記述している。

次に、造語候補検出部１０３が、名詞またはサ変名詞の２以上の語が連続する複合語があるかどうかを検出する。（２）の例では、「炉(名詞)／停止(サ変名詞)」が該当するため、「炉(名詞)／停止(サ変名詞)」を造語候補文字列として検出する。

次に、構文情報検索部１０６が、造語候補検出部１０３から校正制御部１０７を通じて受け取った造語候補文字列「炉停止」の構成語「炉」と「停止」とがガ格、ヲ格、ノ格などの助詞の格要素となっており、「炉」と「停止」とが文書中に互いに依存関係を有する文（依存関係文）があるかどうかを構文情報データベース１０５から検索する。一例として構文情報データベース１０５に「炉」と「停止」とに関する依存関係文（３）が存在したとする。
「ナトリウム漏えいが漏えい検出器で検出された場合、運転員は炉を速やかに停止させる。」・・・（３）
さらに、構文情報データベース１０５に、表１に示すような依存関係文（３）の構文および係り受け情報が登録されていたとする。

表１は、構文および係り受け情報から格と見出し語とを用いて木構造で表現したものである。表１を参照すれば、「炉+ヲ(wo)+停止する」というヲ格による依存関係を検出することができる。従って、「炉停止」または「炉を停止する」という２種類の表現が存在することになる。すなわち、「炉停止」は「炉+ヲ(wo)+停止する」という表現を簡略化して名詞化した表現であり、「炉停止」は造語であると判定することができる。このように、構文解析および係り受け解析を行った解析情報を参照することにより、各構成語がどのような格要素によって互いに依存関係を有するかを解析することができる。

なお、「炉停止」という造語は、「炉（を）停止する」というヲ格による依存関係だけではなく、「炉（が）停止する」というガ格による依存関係を有する可能性もある。そこで、「炉停止」が造語であると判定された場合、校正制御部１０７は造語と依存関係文と含んだ警告メッセージをユーザに通知する。警告メッセージの一例を表２に示す。

ここで表２中の下線は造語を構成する構成語が、依存関係文中でどのように用いられているかを示す。表２に示す警告メッセージであれば、ユーザは、造語として検出された複合語は過去にどのような依存関係で用いられていたかを認識することができ、造語の内容を正確に把握した上で翻訳することができる。なお、構成語を下線で表示するだけでなく、太字、ハイライト、または点滅させることによって表示してもよい。また、警告メッセージの表示方法は、ユーザが認識できる方法であれば何でもよく、ユーザが作業している画面中に別ウィンドウで表示してもよいし、文書中にポップアップで表示してもよい。さらに、警告メッセージを文書でユーザに提示するだけでなく、例えば、音声によりユーザに通知してもよい。

次に、構文情報データベース１０５に格納される構文情報の一例について図３を参照して詳細に説明する。
構文情報データベース１０５には、ＩＤ３０１、形態素情報３０２、構文および係り受け情報３０３、原文３０４、および校正情報３０５が構文情報としてそれぞれ対応付けて格納される。図３では、「ナトリウム漏えいが漏えい検出器で検出された場合、運転員は炉を速やかに停止させる」という原文３０４ごとにユニークなＩＤ３０１が示される。さらに、原文３０４を形態素解析した形態素情報３０２、原文３０４を構文解析および係り受け解析した構文および係り受け情報３０３、および原文３０４が校正済の文であるかどうかを示す校正情報３０５が示される。

校正情報３０５は、図３では、原文が校正済である状態を「済」、原文がまだ校正されてない状態を「未」とする。なお、これに限らず、フラグが立っている場合を校正済とする手法により校正済であるかどうかを表現してもよく、校正済の文であるかどうかを判別できる手法であれば何でもよい。校正情報３０５が「済」である場合、造語候補文字列がこの校正済の文中に存在していれば、文中に存在する造語候補文字列は過去に１度以上造語判定処理が行われたと考えられるため、造語として表示しないようにする。こうすることで、過去の校正済の文書資源を有効に利用することができる。
なお、構文情報は、文書が作成された日付を示す情報や執筆者の情報などを付加し、警告表示部１０８においてさらに詳細な情報を表示できるようにしてもよい。

次に、構文情報検索部１０６が単語間の依存関係を検索する一例について図４を参照して説明する。
構文情報検索部１０６が造語候補文字列の構成語間の依存関係を検索する場合に、本実施形態では、構文情報データベース１０５に格納されたインデックステーブルを用いる。インデックステーブルは、形態素情報から作成したインデックス４０１と図３に示すＩＤ３０１とをそれぞれ対応させたテーブルである。インデックステーブルの作成については、例えば、登録文書中の文に対して構文情報が作成された後、構文情報管理部１０４が構文情報から形態素情報３０２とＩＤ３０１とを抽出して作成すればよい。例えば、「炉」と「停止」との単語間の依存関係を検索する場合は、「炉」と「停止」とのそれぞれについてインデックス４０１を検索し、共通のＩＤ３０１を有していれば単語間の依存関係を得ることができる。この場合では、ＩＤ３０１「００１」が該当し、図３に示すような構文情報中の構文および係り受け情報３０３を参照することで単語間の格要素による依存関係を得ることができる。

（本実施形態の変形例）
ここでは、本実施形態の変形例として、日本語による文書ではなく、中国語による文書の場合の本実施形態に係る文書校正支援装置について説明する。

一例として、入力された校正文書中に中国語文（４）が存在していると仮定する。

この文中の中国語には（５）に示すように、２通りの解釈が存在する。

従って、上述の日本語技術文書の例のときと同様に、この技術分野の専門家でない翻訳者がこの文を英語などの中国語以外の言語に翻訳する際に困難を伴うことが予想される。
このような複合語を造語として検出したい場合、例えば従来の手法のようにコーパス出現頻度を調べ、その頻度が閾値以下であれば造語とする手法が考えられる。しかし、中国語の場合は単に複合語としてではなく、「動詞＋名詞」または「名詞＋動詞」として文中に存在する場合があるので、この単語列の頻度だけでは、複合語が造語であるかどうかの判定は難しい。

または、以下の中国語（６）から中国語（９）までに示す中国語の部分単語列のコーパス出現頻度を調べ、その頻度が高いものを部分複合語とし、中国語文（４）が中国語（６）から中国語（９）まで以外の単語との連結によって生成された造語であると判定する手法も考えられる。

しかし、この例文の技術分野であるコンピュータ分野では、これらの単語はコーパス出現頻度が高く、この手法では複合語が造語であるかどうかの判定は難しい。

ここで、中国語の文書の場合における本実施形態に係る文書校正支援装置の造語判定処理について、図５のフローチャートを参照して詳細に説明する。ここでは、中国語文（４）を入力文として造語判定処理を行う。
ステップＳ５０１では、文書解析部１０２が入力文の形態素解析を行う。

ステップＳ５０２では、造語候補検出部１０３が、造語候補文字列があるかどうかを検出する。本変形例の場合の造語候補文字列は、名詞または名詞および動詞の両解釈がある単語の２以上の語が連続する複合語とする。このような造語候補文字列があればステップＳ５０３へ進み、造語候補文字列がなければステップＳ５０５へ進む。具体例として、造語候補検出部１０３が上記中国語文（４）から造語候補文字列を検出する場合を考える。
中国語（８）は、「起動（名詞）」と「起動する（動詞）」との両方の解釈がある。次の「模式」は名詞であり、中国語（９）は、「変更（名詞）」と「変更する（動詞）」との両方の解釈がある。

従って、このように２以上の語が連続する複合語を造語候補文字列（１０）として検出する。

ステップＳ５０３では、構文情報検索部１０６が構文情報データベース１０５を検索して、造語候補文字列の構成語が動詞の格要素となり、かつ構成語に関する依存関係文があるかどうかを検索する。依存関係文があれば、造語候補文字列は造語であるとしてステップＳ５０４に進み、依存関係文がなければ、ステップＳ５０５へ進む。

構文情報データベース１０５に次のような中国語文（１１）とその解析結果である構文情報が格納されている場合を考える。

中国語文（１１）の下線部は校正対象の中国語文（４）に存在する造語候補文字列と同一である。また、中国語文（１１）の構文および係り受け解析情報を表３に示す。

表３の構文および係り受け解析情報を参照すると、主動詞は中国語（９）であり、中国語（７）は目的語（obj）の格要素であることが分かる。よって、中国語（９）は動詞の格要素であり、中国語（７）と中国語（９）との間には「目的語―動詞」の依存関係が存在するため造語候補文字列（１０）は造語であると判定する。

ステップＳ５０４では、警告表示部１０８が造語と依存関係文とを表示してユーザに造語が使用されてことを通知する。警告表示部１０８が表示する警告メッセージの一例を表４に示す。

警告メッセージの表示方法は、日本語文書における造語判定処理と同様に、ユーザが認識できる方法であれば何でもよい。

以上に示した実施形態によれば、造語候補文字列を構成する構成語に対して、過去の登録文書中の文に存在する構成語間の依存関係により造語かどうかを判定するので、原言語のコーパス頻度を利用した造語の検出および指摘よりも精度のよい造語の検出および指摘が可能である。さらに、過去の登録文書中の文において構成単語が同一文中に存在していたとしても係り受け関係がない場合は、対象の複合語は造語とは認識しないなど、文字列検索またはワイルドカード検索よりも柔軟で精度のよい指摘ができる。よって、文書校正の精度を高め作業効率を向上させることができる。

また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した文書校正支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の文書校正支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本願発明におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１００・・・文書校正支援装置、１０１・・・文書入力部、１０２・・・文書解析部、１０３・・・造語候補検出部、１０４・・・構文情報管理部、１０５・・・構文情報データベース（ＤＢ）、１０６・・・構文情報検索部、１０７・・・校正制御部、１０８・・・警告表示部、３０１・・・ＩＤ、３０２・・・形態素情報、３０３・・・構文および係り受け情報、３０４・・・原文、３０５・・・校正情報、４０１・・・インデックス。

Claims

校正処理の対象となる１以上の文を含む校正文書または登録処理の対象となる１以上の文を含む登録文書の入力を受け付ける文書入力部と、
前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成する文書解析部と、
前記形態素解析情報を参照して、名詞となりうる２以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出する造語候補検出部と、
前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報を格納する構文情報データベースと、
前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定する構文情報検索部と、
前記造語を含むメッセージを表示する警告表示部と、を具備することを特徴とする文書校正支援装置。
前記造語候補検出部は、前記校正文書が日本語である場合、名詞またはサ変名詞の２以上の語が連続する複合語を造語候補文字列として検出することを特徴とする請求項１に記載の文書校正支援装置。
前記造語候補検出部は、前記校正文書が中国語である場合、名詞、または名詞および動詞の両方の解釈がある語の２以上の語が連続する複合語を造語候補文字列として検出することを特徴とする請求項１に記載の文書校正支援装置。
前記構文情報検索部は、前記校正文書が日本語である場合、１以上の前記構成語が助詞の格要素となり、かつ該構成語間で前記名詞連続関係以外の依存関係を有する前記依存関係文があるかどうかを検索することを特徴とする請求項１または請求項２に記載の文書校正支援装置。
前記構文情報検索部は、前記校正文書が中国語である場合、１以上の前記構成語が動詞の格要素となり、かつ該構成語間で前記名詞連続関係以外の依存関係を有する前記依存関係文があるかどうかを検索することを特徴とする請求項１または請求項３に記載の文書校正支援装置。
前記警告表示部は、前記造語と前記依存関係文とを含む警告メッセージを表示することを特徴とする請求項１から請求項５のいずれか１項に記載の文書校正支援装置。
前記構文情報にさらに、前記登録文書に含まれる文が過去に校正されたかどうかを示す校正情報を含めて前記構文情報データベースに格納する構文情報管理部をさらに具備することを特徴とする請求項１から請求項６のいずれか１項に記載の文書校正支援装置。
前記造語候補検出部は、前記依存関係文の校正情報が校正済であることを示す場合は、前記造語候補文字列を造語として検出しないことを特徴とする請求項７に記載の文書校正支援装置。
前記構文情報データベースは、格と見出し語とで構成された木構造を格納し、
前記構文情報検索部は、前記木構造を参照することにより前記構成語間の依存関係を検索することを特徴とする請求項１から請求項８に記載の文書校正支援装置。
校正処理の対象となる１以上の文を含む校正文書または登録処理の対象となる１以上の文を含む登録文書の入力を受け付け、
前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成し、
前記形態素解析情報を参照して、名詞となりうる２以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出し、
前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報を格納する構文情報データベースを用意し、
前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定し、
前記造語を含むメッセージを表示することを具備することを特徴とする文書校正支援方法。
コンピュータを、
校正処理の対象となる１以上の文を含む校正文書または登録処理の対象となる１以上の文を含む登録文書の入力を受け付ける文書入力手段と、
前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成する文書解析手段と、
前記形態素解析情報を参照して、名詞となりうる２以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出する造語候補検出手段と、
前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報をデータベースに格納する格納手段と、
前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定する構文情報検索手段と、
前記造語を含むメッセージを表示する警告表示手段として機能させるための文書校正支援プログラム。