JP4940325B2 - 文書校正支援装置、方法およびプログラム - Google Patents

文書校正支援装置、方法およびプログラム Download PDF

Info

Publication number
JP4940325B2
JP4940325B2 JP2010076047A JP2010076047A JP4940325B2 JP 4940325 B2 JP4940325 B2 JP 4940325B2 JP 2010076047 A JP2010076047 A JP 2010076047A JP 2010076047 A JP2010076047 A JP 2010076047A JP 4940325 B2 JP4940325 B2 JP 4940325B2
Authority
JP
Japan
Prior art keywords
document
word
proofreading
dependency
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010076047A
Other languages
English (en)
Other versions
JP2011209941A (ja
Inventor
博和 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010076047A priority Critical patent/JP4940325B2/ja
Priority to US12/887,624 priority patent/US8532980B2/en
Publication of JP2011209941A publication Critical patent/JP2011209941A/ja
Application granted granted Critical
Publication of JP4940325B2 publication Critical patent/JP4940325B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Description

本発明は、技術文書の校正支援システムに関し、特に造語の検出機能を有する文書校正支援装置、方法およびプログラムに関する。
技術者が報告書や論文、特許などの技術文書を作成し、この技術文書をその分野の専門家でない翻訳者が他言語に翻訳する場合がある。文書作成者が使用した複合語(造語)を翻訳する際、文書を作成した専門家には意味または内容が明らかな用語でも、翻訳者にとっては前提となる技術的知識の欠如によって、どのように翻訳すればよいのかわからないといった問題がある。この場合、複合語やその部分単語列からなる複合語のコーパス頻度を調べ、その頻度が低いものを利用頻度が小さい複合語、すなわち造語として警告するという方法がある(例えば、特許文献1参照)。
特開2001−249921号公報
しかしながら、コーパス頻度を用いるだけでは翻訳者の翻訳作業において訳語の判断が難しい場合がある。例えば、名詞「事象」とサ変名詞「抽出」とを組み合わせた造語「事象抽出」という複合語が使用された場合を仮定する。この場合、「事象抽出」という用語のコーパス頻度が予め設定した閾値よりも大きければ、この複合語は造語として判定されない。しかし、専門家でない翻訳者が「事象抽出」という用語を他言語、例えば英語に翻訳しようする場合、「事象」の訳語を“event”、「抽出」の訳語を“extraction”とすると、「事象抽出」を“event extraction”と訳せばよいのか、“extraction from event”と訳せばよいのか、あるいは“extraction of event”と訳せばよいかという判断が難しい。
また、複合語「事象抽出」が造語かどうかを判定する方法として、例えば単純に「事象」「抽出」の2語を用いた文字列検索や「事象*抽出」のようなワイルドカード検索が考えられる。しかし、これらの方法では、「事象データ系列抽出」または「事象データにより関連性が抽出される」などのような単語列が検索される可能性があり、「事象抽出」という複合語が造語かどうかの判定は難しい。よって、「事象抽出」という用語の使用頻度だけでは、翻訳者はその用語が造語であるかどうかを判断することができず、翻訳者から執筆者への問い合わせ、執筆者からの回答、および元文書の校正作業が必要となり、結果として翻訳終了までに多くの時間を要してしまう問題がある。
本発明は、上述の課題を解決するためになされたものであり、文書校正の精度を高め作業効率を向上させることができる文書校正支援装置、方法およびプログラムを提供することを目的とする。
上述の課題を解決するため、本発明に係る文書校正支援装置は、校正処理の対象となる1以上の文を含む校正文書または登録処理の対象となる1以上の文を含む登録文書の入力を受け付ける文書入力部と、前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成する文書解析部と、前記形態素解析情報を参照して、名詞となりうる2以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出する造語候補検出部と、前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報を格納する構文情報データベースと、前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定する構文情報検索部と、前記造語を含むメッセージを表示する警告表示部と、を具備することを特徴とする。
本発明の文書校正支援装置、方法およびプログラムによれば、文書校正の精度を高め作業効率を向上させることができる。
本実施形態に係る文書校正支援装置を示すブロック図。 本実施形態に係る文書校正支援装置の造語判定処理を示すフローチャート。 構文情報データベースに格納される構文情報の一例を示す図。 インデックステーブルの一例を示す図。 本実施形態の変形例に係る文書校正支援装置の造語判定処理を示すフローチャート。
以下、図面を参照しながら本発明の実施形態に係る文書校正支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
次に、本実施形態に係る文書校正支援装置について図1を参照して詳細に説明する。
本実施形態に係る文書校正支援装置100は、文書入力部101、文書解析部102、造語候補検出部103、構文情報管理部104、構文情報データベース(DB)105、構文情報検索部106、校正制御部107、および警告表示部108を含む。
文書入力部101は、文書の校正処理を行う場合に校正処理の対象となる校正文書の入力を受け付け、文書の登録処理を行う場合に登録処理の対象となる登録文書の入力を受け付ける。登録文書または校正文書として入力される文書は、文書全体またはその一部分から成る1以上の文を含む文書である。文書は、日本語による文書だけに限らずどのような言語で書かれていてもよく、例えば中国語、韓国語、フランス語で書かれた文書でもよい。
文書解析部102は、文書の登録処理を行う場合(すなわち、文書入力部101に登録文書が入力された場合)は、後述する校正制御部107から登録文書を受け取り、登録文書中の各文を形態素解析、構文解析、および係り受け解析して、登録文書中の各文に対する解析情報を生成する。解析情報には、単語間の意味的なつながりを示す依存関係が含まれる。依存関係の具体例としては、例えば「犬が歩く」という文には、「犬」と「歩く」との単語間にガ格によって結ばれる依存関係がある。また、文書解析部102は、文書の校正処理を行う場合(すなわち、文書入力部101に校正文書が入力された場合)は、校正制御部107から校正文書を受け取り、校正文書中の各文を形態素解析して形態素解析情報を生成する。なお、形態素解析、構文解析、および係り受け解析については、一般的な処理をそれぞれ用いるため、ここでの詳細な説明は省略する。
造語候補検出部103は、文書の校正処理を行う場合は、文書解析部102から校正文書中の各文に対する形態素解析情報を受け取り、形態素解析情報を参照して造語候補文字列があるかどうかを検出する。造語候補文字列は、名詞となりうる2以上の語が連続する複合語(以下、名詞連続関係を有する複合語ともいう)を示す。名詞となりうる語としては、例えば名詞、サ変名詞がある。サ変名詞の具体例としては、「処理」という単語があり、「処理+する」といった名詞に「する」をつけると動詞にもなる単語である。
構文情報管理部104は、文書の登録処理を行う場合は、文書解析部102から後述する校正制御部107を通じて登録文書中の文とその解析情報とを受け取り、解析情報を後述する構文情報データベース105に登録するための管理を行う。
構文情報データベース105は、文書の登録処理を行う場合は、構文情報管理部104から登録文書中の各文に対する解析情報を受け取り、登録文書中の文とその解析情報とを構文情報として格納する。構文情報データベース105に格納される構文情報については、図3を参照して後述する。
構文情報検索部106は、造語候補検出部103から後述する校正制御部107を通じて造語候補文字列を受け取る。そして、構文情報検索部106は、造語候補文字列を構成する構成語が格要素となり、かつ構成語が名詞連続関係以外の依存関係を有する文(以下、依存関係文という)があるかどうかを、構文情報データベース105に格納されている構文情報から検索する。その後、構文情報検索部106は、依存関係文があれば造語候補文字列を造語であると判定する。格要素の具体的な判定については後述する。
校正制御部107は、文書入力部101から文書の校正処理を行う場合には校正文書を受け取り、文書の登録処理を行う場合には登録文書を受け取る。校正処理を行う場合は、校正制御部107は、造語候補検出部103から造語候補文字列を受け取り、構文情報検索部106の要求に応じて造語候補文字列を構文情報検索部106に送る。また、校正制御部107は、構文情報検索部106において造語候補文字列が造語であると判定された場合は、構文情報検索部106から造語と依存関係文とを受け取る。さらに、校正制御部107は、後述する警告表示部108の要求に応じて造語と依存関係文とを警告表示部108に送る。
登録処理を行う場合は、校正制御部107は、文書解析部102から校正文書中の文とその解析情報とを受け取り、構文情報管理部104の要求に応じて文とその解析情報とを構文情報管理部104に送る。なお、登録処理を行う場合に入力される登録文書は、インターネット等に保持されている文書群から抽出してもよいし、ユーザが過去に作成した文書でも現在作成している文書の既に執筆済みの部分でもよい。
警告表示部108は、構文情報検索部106から校正制御部107を通じて造語と依存関係文とを受け取り、警告メッセージとして表示する。警告メッセージの具体例については後述する。
次に、本実施形態に係る文書校正支援装置の造語判定処理について図2のフローチャートを参照して詳細に説明する。なお、入力文書は日本語で書かれた文書とする。
ステップS201では、文書解析部102が、校正文書中の各文に関して形態素解析を行い、解析情報を生成する。
ステップS202では、造語候補検出部103が、解析情報を参照して造語候補文字列があるかどうかを検出する。ここでは、造語候補文字列は名詞またはサ変名詞の2以上の語が連続する文字列とする。このような造語候補文字列があればステップS203に進み、造語候補文字列がなければステップS205へ進む。
ステップS203では、構文情報検索部106が、構文情報データベース105から造語候補文字列を構成する構成語がガ格、ヲ格、ノ格などの助詞の格要素となり、かつ構成語に関する依存関係文があるかどうかを検索する。依存関係文があれば、造語候補文字列は造語であるとしてステップS204へ進み、依存関係文がなければ、ステップS205へ進む。
ステップS204では、警告表示部108が造語と依存関係文とを警告メッセージとして表示し、ユーザに造語が使用されていることを通知する。
ステップS205では、校正制御部107が校正文書中の次の文を読み込み、次の文に対して上述した処理と同様の処理を行うためステップS201へ戻る。
ここで、具体例を用いて本実施形態に係る文書校正支援装置の造語判定処理について説明する。
ここでは、以下の日本語文(1)を校正文書中に存在している文として造語判定処理をする場合を考える。
「崩壊熱は、燃料寿命末期において、炉停止してから1時間後で約0.4MWtである。」・・・(1)
この日本語文(1)において、「炉停止してから1時間後」という部分を翻訳する場合、この文書が示す技術内容を正確に翻訳するためには、「(誰か、もしくは何かが)炉を停止処理してから1時間後」であるのか、または「炉が停止してから1時間後」であるのかという単語間の意味的なつながりを知ることが重要である。しかし、原子力分野に詳しくないユーザが翻訳を行おうとした場合にユーザが技術内容を判断することは難しい。そこで、本実施形態に係る文書校正支援装置の造語判定処理を行う。
まず、文書解析部102が、日本語文(1)について形態素解析をおこなった結果を(2)に示す。
崩壊熱(名詞)/は(助詞)/、/燃料寿命(名詞)/末期(名詞)/に(助詞)/お(動詞)/て(接続助詞)/、/炉(名詞)/停止(サ変名詞)/する(動詞)/て(接続助詞)/から(接続助詞)/1(数字)/時間(数量詞)/後(名詞)/で(助詞)/約(冠数詞)/0.4(数字)/MWt(英未)/であ(助動詞)/。(句点)・・・(2)
ここで、“/”は形態素の境界を表し、「見出し語語幹(品詞)」というフォーマットで記述している。
次に、造語候補検出部103が、名詞またはサ変名詞の2以上の語が連続する複合語があるかどうかを検出する。(2)の例では、「炉(名詞)/停止(サ変名詞)」が該当するため、「炉(名詞)/停止(サ変名詞)」を造語候補文字列として検出する。
次に、構文情報検索部106が、造語候補検出部103から校正制御部107を通じて受け取った造語候補文字列「炉停止」の構成語「炉」と「停止」とがガ格、ヲ格、ノ格などの助詞の格要素となっており、「炉」と「停止」とが文書中に互いに依存関係を有する文(依存関係文)があるかどうかを構文情報データベース105から検索する。一例として構文情報データベース105に「炉」と「停止」とに関する依存関係文(3)が存在したとする。
「ナトリウム漏えいが漏えい検出器で検出された場合、運転員は炉を速やかに停止させる。」・・・(3)
さらに、構文情報データベース105に、表1に示すような依存関係文(3)の構文および係り受け情報が登録されていたとする。
Figure 0004940325
表1は、構文および係り受け情報から格と見出し語とを用いて木構造で表現したものである。表1を参照すれば、「炉+ヲ(wo)+停止する」というヲ格による依存関係を検出することができる。従って、「炉停止」または「炉を停止する」という2種類の表現が存在することになる。すなわち、「炉停止」は「炉+ヲ(wo)+停止する」という表現を簡略化して名詞化した表現であり、「炉停止」は造語であると判定することができる。このように、構文解析および係り受け解析を行った解析情報を参照することにより、各構成語がどのような格要素によって互いに依存関係を有するかを解析することができる。
なお、「炉停止」という造語は、「炉(を)停止する」というヲ格による依存関係だけではなく、「炉(が)停止する」というガ格による依存関係を有する可能性もある。そこで、「炉停止」が造語であると判定された場合、校正制御部107は造語と依存関係文と含んだ警告メッセージをユーザに通知する。警告メッセージの一例を表2に示す。
Figure 0004940325
ここで表2中の下線は造語を構成する構成語が、依存関係文中でどのように用いられているかを示す。表2に示す警告メッセージであれば、ユーザは、造語として検出された複合語は過去にどのような依存関係で用いられていたかを認識することができ、造語の内容を正確に把握した上で翻訳することができる。なお、構成語を下線で表示するだけでなく、太字、ハイライト、または点滅させることによって表示してもよい。また、警告メッセージの表示方法は、ユーザが認識できる方法であれば何でもよく、ユーザが作業している画面中に別ウィンドウで表示してもよいし、文書中にポップアップで表示してもよい。さらに、警告メッセージを文書でユーザに提示するだけでなく、例えば、音声によりユーザに通知してもよい。
次に、構文情報データベース105に格納される構文情報の一例について図3を参照して詳細に説明する。
構文情報データベース105には、ID301、形態素情報302、構文および係り受け情報303、原文304、および校正情報305が構文情報としてそれぞれ対応付けて格納される。図3では、「ナトリウム漏えいが漏えい検出器で検出された場合、運転員は炉を速やかに停止させる」という原文304ごとにユニークなID301が示される。さらに、原文304を形態素解析した形態素情報302、原文304を構文解析および係り受け解析した構文および係り受け情報303、および原文304が校正済の文であるかどうかを示す校正情報305が示される。
校正情報305は、図3では、原文が校正済である状態を「済」、原文がまだ校正されてない状態を「未」とする。なお、これに限らず、フラグが立っている場合を校正済とする手法により校正済であるかどうかを表現してもよく、校正済の文であるかどうかを判別できる手法であれば何でもよい。校正情報305が「済」である場合、造語候補文字列がこの校正済の文中に存在していれば、文中に存在する造語候補文字列は過去に1度以上造語判定処理が行われたと考えられるため、造語として表示しないようにする。こうすることで、過去の校正済の文書資源を有効に利用することができる。
なお、構文情報は、文書が作成された日付を示す情報や執筆者の情報などを付加し、警告表示部108においてさらに詳細な情報を表示できるようにしてもよい。
次に、構文情報検索部106が単語間の依存関係を検索する一例について図4を参照して説明する。
構文情報検索部106が造語候補文字列の構成語間の依存関係を検索する場合に、本実施形態では、構文情報データベース105に格納されたインデックステーブルを用いる。インデックステーブルは、形態素情報から作成したインデックス401と図3に示すID301とをそれぞれ対応させたテーブルである。インデックステーブルの作成については、例えば、登録文書中の文に対して構文情報が作成された後、構文情報管理部104が構文情報から形態素情報302とID301とを抽出して作成すればよい。例えば、「炉」と「停止」との単語間の依存関係を検索する場合は、「炉」と「停止」とのそれぞれについてインデックス401を検索し、共通のID301を有していれば単語間の依存関係を得ることができる。この場合では、ID301「001」が該当し、図3に示すような構文情報中の構文および係り受け情報303を参照することで単語間の格要素による依存関係を得ることができる。
(本実施形態の変形例)
ここでは、本実施形態の変形例として、日本語による文書ではなく、中国語による文書の場合の本実施形態に係る文書校正支援装置について説明する。
一例として、入力された校正文書中に中国語文(4)が存在していると仮定する。
Figure 0004940325
この文中の中国語には(5)に示すように、2通りの解釈が存在する。
Figure 0004940325
従って、上述の日本語技術文書の例のときと同様に、この技術分野の専門家でない翻訳者がこの文を英語などの中国語以外の言語に翻訳する際に困難を伴うことが予想される。
このような複合語を造語として検出したい場合、例えば従来の手法のようにコーパス出現頻度を調べ、その頻度が閾値以下であれば造語とする手法が考えられる。しかし、中国語の場合は単に複合語としてではなく、「動詞+名詞」または「名詞+動詞」として文中に存在する場合があるので、この単語列の頻度だけでは、複合語が造語であるかどうかの判定は難しい。
または、以下の中国語(6)から中国語(9)までに示す中国語の部分単語列のコーパス出現頻度を調べ、その頻度が高いものを部分複合語とし、中国語文(4)が中国語(6)から中国語(9)まで以外の単語との連結によって生成された造語であると判定する手法も考えられる。
Figure 0004940325
しかし、この例文の技術分野であるコンピュータ分野では、これらの単語はコーパス出現頻度が高く、この手法では複合語が造語であるかどうかの判定は難しい。
ここで、中国語の文書の場合における本実施形態に係る文書校正支援装置の造語判定処理について、図5のフローチャートを参照して詳細に説明する。ここでは、中国語文(4)を入力文として造語判定処理を行う。
ステップS501では、文書解析部102が入力文の形態素解析を行う。
ステップS502では、造語候補検出部103が、造語候補文字列があるかどうかを検出する。本変形例の場合の造語候補文字列は、名詞または名詞および動詞の両解釈がある単語の2以上の語が連続する複合語とする。このような造語候補文字列があればステップS503へ進み、造語候補文字列がなければステップS505へ進む。具体例として、造語候補検出部103が上記中国語文(4)から造語候補文字列を検出する場合を考える。
中国語(8)は、「起動(名詞)」と「起動する(動詞)」との両方の解釈がある。次の「模式」は名詞であり、中国語(9)は、「変更(名詞)」と「変更する(動詞)」との両方の解釈がある。
従って、このように2以上の語が連続する複合語を造語候補文字列(10)として検出する。
Figure 0004940325
ステップS503では、構文情報検索部106が構文情報データベース105を検索して、造語候補文字列の構成語が動詞の格要素となり、かつ構成語に関する依存関係文があるかどうかを検索する。依存関係文があれば、造語候補文字列は造語であるとしてステップS504に進み、依存関係文がなければ、ステップS505へ進む。
構文情報データベース105に次のような中国語文(11)とその解析結果である構文情報が格納されている場合を考える。
Figure 0004940325
中国語文(11)の下線部は校正対象の中国語文(4)に存在する造語候補文字列と同一である。また、中国語文(11)の構文および係り受け解析情報を表3に示す。
Figure 0004940325
表3の構文および係り受け解析情報を参照すると、主動詞は中国語(9)であり、中国語(7)は目的語(obj)の格要素であることが分かる。よって、中国語(9)は動詞の格要素であり、中国語(7)と中国語(9)との間には「目的語―動詞」の依存関係が存在するため造語候補文字列(10)は造語であると判定する。
ステップS504では、警告表示部108が造語と依存関係文とを表示してユーザに造語が使用されてことを通知する。警告表示部108が表示する警告メッセージの一例を表4に示す。
Figure 0004940325
警告メッセージの表示方法は、日本語文書における造語判定処理と同様に、ユーザが認識できる方法であれば何でもよい。
以上に示した実施形態によれば、造語候補文字列を構成する構成語に対して、過去の登録文書中の文に存在する構成語間の依存関係により造語かどうかを判定するので、原言語のコーパス頻度を利用した造語の検出および指摘よりも精度のよい造語の検出および指摘が可能である。さらに、過去の登録文書中の文において構成単語が同一文中に存在していたとしても係り受け関係がない場合は、対象の複合語は造語とは認識しないなど、文字列検索またはワイルドカード検索よりも柔軟で精度のよい指摘ができる。よって、文書校正の精度を高め作業効率を向上させることができる。
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した文書校正支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の文書校正支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本願発明における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本願発明におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本願発明の実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の実施形態における機能を実現することが可能な機器、装置を総称している。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
100・・・文書校正支援装置、101・・・文書入力部、102・・・文書解析部、103・・・造語候補検出部、104・・・構文情報管理部、105・・・構文情報データベース(DB)、106・・・構文情報検索部、107・・・校正制御部、108・・・警告表示部、301・・・ID、302・・・形態素情報、303・・・構文および係り受け情報、304・・・原文、305・・・校正情報、401・・・インデックス。

Claims (11)

  1. 校正処理の対象となる1以上の文を含む校正文書または登録処理の対象となる1以上の文を含む登録文書の入力を受け付ける文書入力部と、
    前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成する文書解析部と、
    前記形態素解析情報を参照して、名詞となりうる2以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出する造語候補検出部と、
    前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報を格納する構文情報データベースと、
    前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定する構文情報検索部と、
    前記造語を含むメッセージを表示する警告表示部と、を具備することを特徴とする文書校正支援装置。
  2. 前記造語候補検出部は、前記校正文書が日本語である場合、名詞またはサ変名詞の2以上の語が連続する複合語を造語候補文字列として検出することを特徴とする請求項1に記載の文書校正支援装置。
  3. 前記造語候補検出部は、前記校正文書が中国語である場合、名詞、または名詞および動詞の両方の解釈がある語の2以上の語が連続する複合語を造語候補文字列として検出することを特徴とする請求項1に記載の文書校正支援装置。
  4. 前記構文情報検索部は、前記校正文書が日本語である場合、1以上の前記構成語が助詞の格要素となり、かつ該構成語間で前記名詞連続関係以外の依存関係を有する前記依存関係文があるかどうかを検索することを特徴とする請求項1または請求項2に記載の文書校正支援装置。
  5. 前記構文情報検索部は、前記校正文書が中国語である場合、1以上の前記構成語が動詞の格要素となり、かつ該構成語間で前記名詞連続関係以外の依存関係を有する前記依存関係文があるかどうかを検索することを特徴とする請求項1または請求項3に記載の文書校正支援装置。
  6. 前記警告表示部は、前記造語と前記依存関係文とを含む警告メッセージを表示することを特徴とする請求項1から請求項5のいずれか1項に記載の文書校正支援装置。
  7. 前記構文情報にさらに、前記登録文書に含まれる文が過去に校正されたかどうかを示す校正情報を含めて前記構文情報データベースに格納する構文情報管理部をさらに具備することを特徴とする請求項1から請求項6のいずれか1項に記載の文書校正支援装置。
  8. 前記造語候補検出部は、前記依存関係文の校正情報が校正済であることを示す場合は、前記造語候補文字列を造語として検出しないことを特徴とする請求項7に記載の文書校正支援装置。
  9. 前記構文情報データベースは、格と見出し語とで構成された木構造を格納し、
    前記構文情報検索部は、前記木構造を参照することにより前記構成語間の依存関係を検索することを特徴とする請求項1から請求項8に記載の文書校正支援装置。
  10. 校正処理の対象となる1以上の文を含む校正文書または登録処理の対象となる1以上の文を含む登録文書の入力を受け付け、
    前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成し、
    前記形態素解析情報を参照して、名詞となりうる2以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出し、
    前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報を格納する構文情報データベースを用意し、
    前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定し、
    前記造語を含むメッセージを表示することを具備することを特徴とする文書校正支援方法。
  11. コンピュータを、
    校正処理の対象となる1以上の文を含む校正文書または登録処理の対象となる1以上の文を含む登録文書の入力を受け付ける文書入力手段と、
    前記登録文書に含まれる文を形態素解析、構文解析、および係り受け解析して単語間の意味的なつながりを示す依存関係を含む解析情報を生成し、前記校正文書に含まれる文を形態素解析して形態素解析情報を生成する文書解析手段と、
    前記形態素解析情報を参照して、名詞となりうる2以上の語が連続する関係である名詞連続関係を有する複合語を造語候補文字列として検出する造語候補検出手段と、
    前記登録文書に含まれる文と前記解析情報とを対応付けた構文情報をデータベースに格納する格納手段と、
    前記構文情報を参照して、前記造語候補文字列を構成する構成語が格要素となり、かつ該構成語が前記名詞連続関係以外の前記依存関係を有する依存関係文があるかどうかを検索し、該依存関係文があれば前記造語候補文字列を造語と判定する構文情報検索手段と、
    前記造語を含むメッセージを表示する警告表示手段として機能させるための文書校正支援プログラム。
JP2010076047A 2010-03-29 2010-03-29 文書校正支援装置、方法およびプログラム Active JP4940325B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010076047A JP4940325B2 (ja) 2010-03-29 2010-03-29 文書校正支援装置、方法およびプログラム
US12/887,624 US8532980B2 (en) 2010-03-29 2010-09-22 Document proofing support apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010076047A JP4940325B2 (ja) 2010-03-29 2010-03-29 文書校正支援装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2011209941A JP2011209941A (ja) 2011-10-20
JP4940325B2 true JP4940325B2 (ja) 2012-05-30

Family

ID=44657382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010076047A Active JP4940325B2 (ja) 2010-03-29 2010-03-29 文書校正支援装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US8532980B2 (ja)
JP (1) JP4940325B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678424A (zh) * 2012-09-25 2014-03-26 北大方正集团有限公司 一种文档校对的方法和装置
US8996353B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8990068B2 (en) 2013-02-08 2015-03-24 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US8996355B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US11140115B1 (en) * 2014-12-09 2021-10-05 Google Llc Systems and methods of applying semantic features for machine learning of message categories
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US20220004701A1 (en) * 2021-06-22 2022-01-06 Samsung Electronics Co., Ltd. Electronic device and method for converting sentence based on a newly coined word

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6466777A (en) * 1987-09-08 1989-03-13 Sharp Kk Mechanical translation device
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
JPH0344764A (ja) * 1989-07-12 1991-02-26 Sharp Corp 機械翻訳装置
JPH0756957A (ja) * 1993-08-03 1995-03-03 Xerox Corp ユーザへの情報提供方法
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
JP2001249921A (ja) 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体
US6965857B1 (en) * 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text
JP2003223437A (ja) * 2002-01-29 2003-08-08 Internatl Business Mach Corp <Ibm> 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム
US7451076B2 (en) * 2003-06-30 2008-11-11 Casio Computer Co., Ltd. Information display control apparatus, server, and program which display example sentences with respect to input or selected words and addition words
JP4394517B2 (ja) * 2004-05-12 2010-01-06 富士通株式会社 特徴情報抽出方法、特徴情報抽出プログラム、および特徴情報抽出装置
JP2006285460A (ja) * 2005-03-31 2006-10-19 Konica Minolta Holdings Inc 情報検索システム
JP2007241764A (ja) * 2006-03-09 2007-09-20 Fujitsu Ltd 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
US7899666B2 (en) * 2007-05-04 2011-03-01 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US8712759B2 (en) * 2009-11-13 2014-04-29 Clausal Computing Oy Specializing disambiguation of a natural language expression

Also Published As

Publication number Publication date
JP2011209941A (ja) 2011-10-20
US8532980B2 (en) 2013-09-10
US20110238411A1 (en) 2011-09-29

Similar Documents

Publication Publication Date Title
JP4940325B2 (ja) 文書校正支援装置、方法およびプログラム
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
US8285541B2 (en) System and method for handling multiple languages in text
He et al. Interpretese vs. translationese: The uniqueness of human strategies in simultaneous interpretation
US8429141B2 (en) Linguistically enhanced email detector
JP2008108209A (ja) 機械翻訳の精度を向上させる技術
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
Kammoun et al. The MORPH2 new version: A robust morphological analyzer for Arabic texts
Yoko et al. Extracting definitions of mathematical expressions in scientific papers
Giusti et al. Automatic detection of spelling variation in historical corpus: An application to build a Brazilian Portuguese spelling variants dictionary
Murauer et al. DT-grams: Structured dependency grammar stylometry for cross-language authorship attribution
JP2006252323A (ja) データ変換適性評価方法及びデータ変換装置
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
Zarnoufi et al. Machine normalization: Bringing social media text from non-standard to standard form
Rajendran Parsing in tamil: Present state of art
JP5245291B2 (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
Murawaki et al. Online Japanese Unknown Morpheme Detection using Orthographic Variation.
JP2011175306A (ja) 情報処理装置
JP4001605B2 (ja) 翻訳パターン作成装置
JPH0795323B2 (ja) 自然言語処理装置
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120227

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4940325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350