JP7222218B2

JP7222218B2 - 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム

Info

Publication number: JP7222218B2
Application number: JP2018204307A
Authority: JP
Inventors: 尚徳金山
Original assignee: Toppan Inc
Current assignee: Toppan Inc
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2023-02-15
Anticipated expiration: 2038-10-30
Also published as: JP2020071608A

Description

本発明は、文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラムに関する。

従来、ワードプロセッサ、ワープロなどと呼ばれる文書作成編集装置により作成された文書について、文法チェック、スペルチェック、単語チェックなどを行う文書校正機能がある。このような文章校正機能は、例えば、日本語の入力、編集、仮名漢字変換、各種の辞書など文書作成編集装置が備える基本技術を用いて、予め登録してある単語や構文と一致するか否かを判定することにより、作成された文書の文法誤りなど校正が必要な箇所を抽出する。例えば、特許文献１には、文書において校正が必要な箇所を提示する技術が開示されている。

特開昭６３－２２９５６２号公報

しかしながら、上述した文書校正機能では、予め登録してある単語や構文との一致不一致に基づいて校正が必要か否かを判定する方法であるため、例えば、予め登録されていないものについては校正の必要があるか否かの判定を行うことができない。一方で、あらゆる単語や構文を登録しようとすれば、際限がなく現実的ではない。

本発明は、このような状況に鑑みてなされたもので、予め登録してある単語や構文との一致不一致を判定する方法とは異なる方法で、文書において校正が必要な箇所を抽出することができる文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラムを提供することを目的とする。

本発明の、文書校正支援システムは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習部と、前記対応関係を学習した学習済みモデルを記憶する記憶部と、校正対象である対象文書を取得する取得部と、前記対象文書における助詞の用法に誤りがあるか否かを、前記学習済みモデルを用いて推定する推定部と、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、を備え、前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定することを特徴とする。

本発明の、文書校正支援装置は、校正対象である対象文書を取得する取得部と、前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部と、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、を備え、前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定することを特徴とする。

本発明の、文書校正支援方法は、取得部が、校正対象である対象文書を取得する取得工程と、推定部が、前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定工程と、前処理部が、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理工程と、を有する文書校正支援方法であって、前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、前記推定工程では、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定することを特徴とする。

本発明の、プログラムは、コンピュータを、上記に記載の文書校正支援システムとして動作させるためのプログラムであって、前記コンピュータを前記文書校正支援装置が備える各部として機能させるためのプログラムことを特徴とする。

本発明の、プログラムは、コンピュータを、上記に記載の文書校正支援装置として動作させるためのプログラムであって、前記コンピュータを前記文書校正支援装置が備える各部として機能させるためのプログラムことを特徴とする。

本発明によれば、学習済みモデルを用いて文書における助詞の用法に誤りがあるか否かを推定することができる。このため、予め登録してある単語や構文との一致不一致を判定する方法とは異なる方法で、文書において校正が必要な箇所を抽出することが可能である。

本発明の実施形態による文書校正支援システム１の適用例、及び文書校正支援システム１の構成例を示すブロック図である。本発明の実施形態による文書校正支援装置２０の構成例を示すブロック図である。本発明の実施形態による学習装置３０構成例を示すブロック図である。本発明の実施形態による対象文書１０の例を示す図である。本発明の実施形態による文書校正支援装置２０の動作を説明する図である。本発明の実施形態による端末装置４０の表示例を示す図である。本発明の実施形態による端末装置４０の表示例を示す図である。本発明の実施形態による端末装置４０の表示例を示す図である。本発明の実施形態による文書校正支援システム１の動作例を示すシーケンスチャートである。本発明の実施形態の変形例による文書校正支援装置２０Ａの構成例を示すブロック図である。本発明の実施形態の変形例による端末装置４０の表示例を示す図である。

以下、本発明の実施形態について、図面を参照して説明する。

（実施形態）
まず、実施形態について説明する。本実施形態では、文書における助詞の用法に誤りがある箇所を、校正が必要な箇所として抽出する場合を例示して説明する。
図１は、本発明の実施形態による文書校正支援システム１の構成例を示すブロック図である。文書校正支援システム１は、システムに入力された文書における助詞の用法が誤っている箇所を推定し、当該箇所を表示することにより、校正を支援するシステムである。図１に示すように、文書校正支援システム１は、例えば、対象文書１０と、文書校正支援装置２０と、学習装置３０と、端末装置４０とを備える。文書校正支援装置２０と学習装置３０とは通信可能に接続される。

対象文書１０は、校正の対象となる文書である。対象文書１０は、配布や閲覧など様々な目的のために作成される文書であり、例えば、チラシ、カタログ、パンフレット等の印刷媒体に印刷するために作成される各種ドキュメントである。対象文書１０は、例えば、印刷される前の段階において、文書校正支援装置２０により文書の記載に誤りがないかが推定され、誤りがあると推定された場合に当該誤りが端末装置４０に表示される。

文書校正支援装置２０は、対象文書１０において記載に誤りがある箇所を推定するパーソナルコンピュータ、サーバ装置等である。文書校正支援装置２０には対象文書１０の電子データ（以下、対象文書データと称する）が入力される。ここで、文書校正支援装置２０に入力される電子データは、文字データが埋め込まれたものに限定されない。例えば、スキャンした資料等にＯＣＲ（Optical Character Recognition）等の文字認識処理を行った電子データであっても良い。また、このＯＣＲ等の処理は、校正段階に限らず、入稿段階において行われたものであってもよい。文書校正支援装置２０は、学習装置３０を用いて対象文書１０における記載の誤りの有無を推定し、誤りがあると推定された場合、当該推定された箇所を表示する表示データを、端末装置４０に出力する。

学習装置３０は、文書における記載の誤りを推定するための学習を行うパーソナルコンピュータ、サーバ装置等である。学習装置３０は、例えば、記載の誤りがない文書を用いて機械学習を実行することにより、学習済みモデルを作成する。この学習モデルは、入力された文書について、記載の誤りがあるか否かを推定した結果を出力するモデルである。学習モデルの作成方法については、後で詳しく説明する。
端末装置４０は、ユーザである校正作業者が利用する端末である。例えば、端末装置４０は、ＰＣ（Personal Computer）スマートフォン等の携帯電話、タブレット端末等である。端末装置４０は、対象文書１０において記載に誤りがあると推定された箇所（修正すべき箇所）を表示する。

本実施形態では、対象文書１０は少なくとも助詞を含む文書であり、文書校正支援装置２０は対象文書１０における助詞の用法に誤りがあるか否か推定する。すなわち、文書校正支援システム１は、対象文書１０における助詞の用法の誤りの有無を推定して表示することにより、対象文書１０について校正作業をするユーザに、対象文書１０について修正が必要な箇所を提示し校正作業を支援する。

図２は、本発明の実施形態による文書校正支援装置２０の構成例を示すブロック図である。文書校正支援装置２０は、例えば、取得部２０１と、前処理部２０２と、推定部２０３と、出力部２０４と、通信部２０５と、制御部２０６と、文書データ記憶部２０７とを備える。

取得部２０１は、対象文書１０の電子データである対象文書データを取得する。取得部２０１は、例えば、文書校正支援装置２０が接続された通信ネットワークを介して、或いは、対象文書データが記憶されたＵＳＢ(Universal Serial Bus)メモリ等の記録媒体から、文書校正支援装置２０のＵＳＢコネクタ等を介して対象文書データを取得する。

前処理部２０２は、取得部２０１を介して対象文書１０の電子データを取得する。前処理部２０２は、取得したデータの前処理を行うことにより、学習済みモデルに入力する入力データを作成する。ここで、前処理とは、文書における助詞の用法に誤りがあるか否かの推定がし易いようにデータを処理することである。
例えば、前処理部２０２は、対象文書１０について形態素解析を行い、対象文書１０を品詞ごとに分離する。
前処理部２０２は、品詞ごとに分離した対象文書１０から、校正の対象となる助詞を抽出する。前処理部２０２は、抽出した助詞のうちの何れかの助詞をその用法に誤りがあるか否かを推定する対象の助詞（以下、推定対象の助詞という）とする。前処理部２０２は、対象文書１０から対象文書１０における当該推定対象の助詞の位置を基準とした所定の文字列を、学習済みモデルに入力させることにより、推定対象の助詞を校正するか否かを判定させる対象文字列として抜き出す。
ここでの推定対象の助詞の位置とは、対象文書１０において推定対象の助詞が記載された位置であって、当該推定対象の助詞の前後の少なくとも何れかに記述される名詞又は動詞との関係から記載される位置である。
また、ここで対象文字列は、例えば、対象文書１０推定対象の助詞の用法について誤りがあるか否かを推定することが可能な程度の長さの文字列であり、例えば、対象文書１０における助詞について、その助詞が用いられた箇所の文字列である。

この前処理部２０２により抜き出される対象文字列は、対象文書１０に記載される内容や、記載量、或いは、文書校正支援装置２０の処理能力等に応じて任意に定められてよい。例えば、前処理部２０２により抜き出される対象文字列は、推定対象の助詞の前後に記載された名詞句又は動詞句を含む文字列であってもよいし、推定対象の助詞の前後に記載された所定の文字数の文字列であってもよい。また、対象文字列は、推定対象の助詞の前、又は後に記載される文字列のみであってもよいし、抜き出した文字列に句点や読点、或いは記号等が含まれていてもよい。また、抜き出した対象文字列には、基準となった推定対象の助詞が含まれていてもよいし、含まれていなくともよい。

前処理部２０２は、抜き出した対象文字列に、その抜き出す際に基準とした位置に記載された推定対象の助詞を対応付けたデータを、学習済みモデルに入力する入力データとして作成する。前処理部２０２は、対象文書１０にいて記載された助詞の各々を推定対象の助詞として、上述した学習済みモデルに入力する入力データを作成する。

推定部２０３は、学習装置３０の学習済みモデルに、前処理部２０２により作成された入力データを入力することにより得られる出力に基づいて、対象文書１０における助詞の用法に誤りがあるか否かを推定する。
出力部２０４は、推定部２０３により推定された推定結果を出力する。出力部２０４は、例えば、端末装置４０に推定結果を出力することにより、対象文書１０における助詞の用法に誤りがある箇所を表示させる。
通信部２０５は、学習装置３０と通信を行う。通信部２０５は、学習装置３０に学習済みモデルに入力する入力データを送信する。通信部２０５は、学習装置３０から学習済みモデルによる出力結果を受信する。

制御部２０６は、文書校正支援装置２０を統括的に制御する。制御部２０６は、例えば、取得部２０１により取得された対象文書データを、前処理部２０２に出力させる。制御部２０６は、前処理部２０２により作成された入力データを推定部２０３に出力させる。また、制御部２０６は、推定部２０３により推定された推定結果を出力部２０４に出力させる。制御部２０６は、推定部２０３が推定を行う場合において、学習済みモデルに入力する入力データを通信部２０５により学習装置３０に送信させると共に、学習装置３０からの出力結果を受信させる。また、制御部２０６は、取得部２０１により取得された対象文書データを文書データ記憶部２０７に記憶させる。
文書データ記憶部２０７は、対象文書データを記憶する。

図３は、本発明の実施形態による学習装置３０構成例を示すブロック図である。学習装置３０は、取得部３０１と、前処理部３０２と、学習部３０３と、通信部３０５と、制御部３０６と、学習済みモデル記憶部３０７とを備える。
取得部３０１と前処理部３０２とは、処理の対象が学習用の文書である点において相違するが、機能については取得部３０１と前処理部２０２と同等である。このため、以下の説明においては、取得部３０１と前処理部３０２との機能についての説明を省略し、相違点についてのみ説明をする。

取得部３０１は、学習用の文書における文書データである学習用文書データを取得する。学習用の文書は、例えば、過去のチラシやカタログ等、校正済みの文書である。学習用の文書として、校正済みの文書を用いることにより、助詞の用法について誤りがない文書を用いて、助詞とその助詞の用法について学習することが可能である。

前処理部３０２は、学習用文書データについて前処理を行うことにより、学習部３０３に入力する学習データを作成する。ここでの学習データは、学習用の文書において抽出された助詞と、学習用の文書においてその助詞が記載された位置を基準とした所定の文字列とを対応付けたデータである。

学習部３０３は、前処理部３０２により作成された学習データを用いて機械学習を実行することにより学習済みモデルを作成する。本実施形態における機械学習は、例えば、教師あり学習である。学習済みモデルを作成する機械学習の技法としては、畳み込みニューラルネットワーク、サポートベクタマシン、決定木学習、遺伝的プログラミング、などの一般的に用いられている技法のいずれが用いられてもよい。
学習部３０３により作成された学習済みモデルは、助詞の用法について誤りがない学習用の文書を学習データ（教師データ）として学習する。このことから、学習済みモデルには、助詞を含む文章について、その助詞が正しく用いられた文章が学習されている。このため、学習済みの文章と校正対象の文章とが、助詞以外の部分で比較して類似する場合に、同じ助詞が用いられていれば、校正対象の文章において助詞が正しい用法で用いられている可能性が高い。

学習済みモデルには、文書校正支援装置２０により作成された入力データ（対象文書１０における助詞と、その助詞が記載された位置を基準として抜き出された所定の文字列とが対応付けられたデータ）が入力される。そして、学習済みモデルは、例えば、入力データにおける文字列から推定対象の助詞を除いた文字列（除外済みの対象文字列という）と、学習済みの学習データにおける文字列に用いられている助詞を除いた文字列（除外済みの学習用文字列という）との類似度合いを算出する。ここでの類似度合いとは、除外済みの対象文字列と除外済みの学習用文字列とが似ているか否かを示す度合いであり、例えば、類似度合いを表現するベクトル空間における距離として算出される。学習済みモデルは、例えば、除外済みの学習用文字列、及び除外済みの対象文字列の特徴量を数値化（ベクトル表現）して高次元のベクトル空間上に配置する。そして、学習済みモデルは、入力データにおける除外済み対象文字列のベクトル表現と、除外済み学習用文字列のベクトル表現の相関量をコサイン、内積、距離等によって計算した関連度を、類似度合いとして算出する。
学習済みモデルは、例えば、除外済み学習用文字列との関連度が所定の閾値以内である除外済み学習用文字列を、除外済み学習用文字列と類似する文字列と判定する。なお、除外済み対象文字列と類似すると判定される除外済み学習用文字列は、一つの文字列に限定されることはなく、複数の文字列が類似すると判定されてもよい。

学習済みモデルは、除外済み学習用文字列のうち、除外済み対象文字列と類似する文字列に用いられた助詞の出現確率を算出する。そして、例えば、学習済みモデルは、算出した出現確率が所定の閾値以上の助詞が、対象文字列に用いられている推定対象の助詞と一致するか否かを判定する。学習済みモデルは、出現確率が所定の閾値以上の助詞と推定対象の助詞とが一致する場合に、対象文字列における助詞が正しい助詞の正しい用法で用いられていると推定する。すなわち、学習済みモデルは、入力データの文字列に対応付けられた推定対象の助詞が、その推定対象の助詞を除いた文字列に類似する学習データの文字列（除外済みの学習用文字列）に用いられている出現確率が所定の閾値以上の助詞と一致する場合、入力データにおける助詞の用法に誤りがないと推定する。

また、学習済みモデルは、出現確率が所定の閾値未満であっても、学習用文字列に用いられた助詞が複数あって、その各々の助詞の出現確率が均衡している場合には、各々の助詞の何れかと推定対象の助詞とが一致する場合に入力データにおける助詞の用法に誤りがないと推定するようにしてもよい。
例えば、「Ａが選んだＢ」という対象文字列に助詞「が」が対応付けられた入力データを考える。この場合、学習済みモデルは、削除済みの対象文字列（つまり「Ａ／選んだＢ」との文字列）と類似するものとして、例えば、「Ａ（が）選んだＢ」「Ａ（の）選んだＢ」、「Ａ（に）選んだＢ」、「Ａ（を）選んだＢ」等を選択する。これらの類似する学習用文字列に用いられている助詞「が」、「の」、「に」、「を」の各々は、いずれも正しい用法で用いられていると考えられるため、各々の出現確率は２５％（つまり、１／４）程度で均衡する。このような場合、学習済みモデルは、対象文書に用いられている助詞が「が」、「の」、「に」、「を」の何れかであれば、その助詞の用法に誤りがないと推定する。つまり、学習モデルは、学習用文字列に用いられている助詞が複数あり、そのうちの幾つかの助詞の出現確率が所定の条件で均衡している場合には、その幾つかの助詞の何れもが正しい用法で用いられているとみなしてもよい。ここでの所定の条件で均衡しているとは、出現確率が、全体を助詞の数で割った出現確率と同程度となることであり、例えば、２つの助詞の出現確率がそれぞれ５０％（つまり、１／２）程度となること、３つの助詞の出現確率がそれぞれ３３％（つまり、１／３）程度となること等である。

もっとも、対象文字列を適切に選択することにより、助詞の用法に誤りがないか否かを推定する精度を向上させることが可能である。例えば、「Ａが選んだＢ」ではなく、「Ａが選んだＢを表示する」という文字列を対象文字列とすれば、「Ａ（が）選んだＢを表示する」「Ａ（の）選んだＢを表示する」、「Ａ（に）選んだＢを表示する」、「Ａ（を）選んだＢを表示する」との文字列は類似すると判定される。しかし、「Ａ（を）選んだＢを表示する」との文字列は助詞が正しい用法で用いられていない。このため、助詞「を」の出現確率は、他の助詞「が」、「の」、「に」と比較して小さい確率となる。この場合、少なくとも対象文書に用いられている助詞が「を」であれば、その助詞の用法に誤りがあると推定することが可能である。

通信部３０５は、文書校正支援装置２０と通信を行う。通信部３０５は、文書校正支援装置２０から学習済みモデルに入力する入力データを受信する。通信部２０５は、文書校正支援装置２０に学習済みモデルによる出力結果を送信する。
制御部３０６は、学習装置３０を統括的に制御する。制御部３０６は、例えば、取得部３０１により取得された学習用文書データを、前処理部３０２に出力させる。制御部３０６は、前処理部３０２により作成された学習データを学習部３０３に出力させる。また、制御部３０６は、学習部３０３により作成された学習済みモデル記憶部３０７に記憶させる。制御部３０６は、文書校正支援装置２０からの要求に応じて、学習済みモデルに入力させる入力データを通信部３０５により受信させると共に、学習済みモデルからの出力結果を文書校正支援装置２０に送信させる。
学習済みモデル記憶部３０７は、学習部３０３により作成された学習済みモデルを記憶する。

図４は、本発明の実施形態による対象文書１０の例を示す図である。
図４に示すように、対象文書１０は、例えば、上側に注意書きが記載され、下側に費用の概算が記載された、保険の契約について案内するパンフレットである。この例では、上側の注意書きに記載された文書における「お申し込み」、「お申込み」という文言１００、下側の文書に記載された「安全な商品」という文言１０１、「介護に必要の費用」という文言１０２、「業界Ｎｏ．１」という文言１０３、がそれぞれ校正の対象となり得る。文言１００は、送り仮名が異なる文言が混在した表記ゆれが発生しているために校正の対象となる。文言１０１は、「安全」、「絶対」、「永久」等、広告に使用することが禁止されている特定用語が記載されているために校正の対象となる。文言１０２は、助詞の用法が誤って記載されているために校正の対象となる。文言１０３は、具体的な裏付けがなく「Ｎｏ．１」などの特定用語が記載されていることから校正の対象となる。

このように、文書校正支援システム１においては、助詞の用法に誤りがあるか否かの推定に加えて、対象文書１０における表記ゆれの有無、特定用語の使用の可否などについてチェックがなされ、校正の対象として表示されるようにしてもよい。また、対象文書１０における誤字脱字、文体が統一されているか、同一文言が漢字、仮名英数字等で混在して記載されていないか、同音同訓の文言について誤った記載がなされていないか、業界別のレギュレーション（文章ルール）に則っているか等についてチェックがなされ、校正の対象として表示されるようにしてもよい。

ここで、文書校正支援装置２０が助詞の用法の誤りを推定する方法について、図５を用いて説明する。図５は、本発明の実施形態による文書校正支援装置２０の動作を説明する図である。
文書校正支援装置２０の取得部２０１が、対象文書１０として、「私は、商品で買った。」という記載の文書を取得したとする。
前処理部２０２は、対象文書１０を形態素解析して品詞ごとに分離し、「私（名詞）／は（助詞）／商品（名詞）／で（助詞）／買った（動詞）」のような結果（符号２００Ａ）を取得する。
前処理部２０２は、品詞ごとに分離した対象文書データから、「は（助詞）」、「で（助詞）」のような助詞を抽出する（符号２００Ａにおける丸囲み部分）。
前処理部２０２は、抽出した助詞の位置を基準として、対象文書１０から所定の文字列を抜き出す。例えば、前処理部２０２は、抽出した助詞「は」について、当該助詞の前後に記載された名詞である「私／商品」の文字列を抜き出す。また、例えば、前処理部２０２は、抽出した助詞「で」について、当該助詞を挟んで前後に記載された名詞である「商品／買った」の文字列を抜き出す。

前処理部２０２は、助詞「は」と文字列「私／商品」とを対応付けた入力データ「私／Ｘ／商品」（符号２００Ｂ）を作成する。ここで、Ｘは、用法の誤りについて推定される助詞（この例では「は」）が記載された位置を示している。
推定部２０３は、入力データ「私／Ｘ／商品」を学習済みモデルに入力させることにより、当該学習済みモデルからの出力結果を得る。この場合における出力結果は、例えば、Ｘの位置に記載されるべき助詞の確率（出現確率）が示されたものである（符号２００Ｄ）。

また、前処理部２０２は、助詞「で」と文字列「商品／買った」とを対応付けた入力データ「商品／Ｙ／買った」（符号２００Ｃ）を作成する。ここで、Ｙは、用法の誤りについて推定される助詞（この例では「で」）が記載された位置を示している。
推定部２０３は、入力データ「商品／Ｙ／買った」を学習済みモデルに入力させることにより、当該学習済みモデルからの出力結果を得る。この場合における出力結果は、例えば、Ｙの位置に記載されるべき助詞の確率が示されたものである（符号２００Ｅ）。

推定部２０３は、学習済みモデルからの出力結果に基づいて、対象文書１０における助詞「は」及び「で」の位置に記載されるべき助詞を推定する。
例えば、推定部２０３は、入力データにおける助詞「は」の位置に記載されるべき助詞が、「は」又は「が」である確率が８０％であることから、助詞「は」の位置に、助詞「は」が記載されることは確からしい用法であり、用法に誤りはないと推定する。
一方、推定部２０３は、入力データにおける助詞「で」の位置に記載されるべき助詞が、「を」である確率が９０％であることから、助詞「で」の位置に、助詞「を」が記載されることがより確からしい用法であり、入力データにおける助詞「で」の用法が誤りであると推定する。
出力部２０４は、推定結果として、入力データにおける助詞「で」の用法に誤りがある旨を出力する（符号２００Ｆ）。
或いは、出力部２０４は、推定結果として、入力データにおける助詞「で」の用法に誤りがあると推定され、より確からしい用法として、助詞「を」記載した文書を出力する（符号２００Ｇ）ようにしてもよい。

ここで、文書校正支援装置２０による推定結果が端末装置４０に表示される例について、図６～図８を用いて説明する。図６～図８は、本発明の実施形態による端末装置４０の表示例を示す図である。
図６に示すように、例えば、端末装置４０は、文書校正支援装置２０による推定結果を表示する画面として、案内表示窓４１と、原文表示窓４２と、アラーム表示窓４３と、サマリーボタン４５とを備える画面を表示する。

案内表示窓４１には、例えば、画面を切り替えるショートカットが表示される。この例では、「校正実行」、「校正状況確認」、及び「辞書管理」の各々の画面に切り替えるショートカットが表示され、「校正実行」の画面が選択されている。「校正実行」の画面は、例えば、対象文書１０における校正前の原文の文書、及び文書校正支援装置２０により推定された校正の候補と推定された箇所が表示される画面である。この画面は、校正作業を行うユーザが、原文と、校正の候補と推定された箇所とを参照して、校正を行うか否かを判断し、校正作業を進めるための画面である。「校正状況確認」の画面は、例えば、原文の文書に校正した内容を反映させた文書が表示される画面であり、ユーザが校正の状況について確認するための画面である。「辞書管理」の画面は、予め登録した辞書が表示される画面であり、ユーザが校正作業の際に辞書を確認するための画面である。

原文表示窓４２は、案内表示窓４１の「校正実行」が選択された場合に表示される画面であって、対象文書１０の原文において、校正の候補と推定された箇所に、枠で囲んだ番号（この例では、１６～２０の番号）が付されたマーカが記されている。アラーム表示窓４３は、原文表示窓４２において校正の候補と推定された箇所に付されたマーカの番号を、アラート番号として、当該番号ごとに校正の候補とした内容が記されている。
原文表示窓４２における枠で囲まれた番号、或いは、アラーム表示窓４３におけるアラート番号がクリック操作されると、その番号に該当する原文の記載、及び校正の候補とするコメントの内容を拡大した画像４６が、画面中央付近に表示される。この例では、原文表示窓４２における枠で囲まれた「１９」の番号がクリック操作された場合を示している。そして、番号１９のマーカ４２１に該当する原文が「その担当を生産管理の田中さんです。」との文書４２０であり、文書４２０について、アラート１９として、助詞の用法が誤っている可能性があること、及びこの文書における助詞「を」の記載を助詞「は」に修正するコメント４３０が示されている。
また、原文表示窓４２における枠で囲まれた番号、或いは、アラーム表示窓４３におけるアラート番号がクリック操作された際に、クリック操作された番号に該当する文書が画面中央に移動したり、該当するアラート番号が点滅したりするようにしてもよい。
これにより、ユーザは、原文において修正が必要な箇所と、その修正の内容について、参照することができ、必要に応じて特定の修正箇所を拡大させることもできるため、対象文書１０における校正作業が容易となる。

サマリーボタン４５は、ユーザがアラートの内容（校正の候補と推定された箇所と、そのコメント）をまとめて表示させようとする場合にクリック操作されるボタンである。
図７に示すように、サマリーボタン４５がクリック操作された場合、対象文書１０におけるアラート番号、及びその属性情報やアラートの内容が複数表示された画面が画面中央付近に拡大されてサマリー表示される（符号４７）。このサマリー表示では、対象文書１０の頁単位、段落単位、章単位等、所定の単位ごとに、その範囲におけるアラートがまとめて表示される。なお、アラート番号に対応する属性情報には、対象文書１０の作成元に関する情報や、対象文書１０にけるアラート番号に対応する頁、段落、章などが示されていてもよい。
これにより、ユーザは、修正が必要な箇所を、対象文書１０の頁単位、段落単位、章単位等、所定の単位ごとに、まとめて認識することができ、対象文書１０における校正作業にかかる作業量を把握したり、作業時間を見積もったりすることが容易となる。

また、サマリーボタン４５がクリック操作された場合、予め選択されたアラートのみがまとめて表示されるようにしてもよい。これにより、ユーザは、特定の修正についてまとめて認識することができ、文言をどのように統一するかを検討したり、特定の修正の修正量を見積もったりすることが容易となる。

また、図８に示すように端末装置４０は、図６、図７の表示とは別の表示を行ってもよい。

図８に示すように、端末装置４０は、文書校正支援装置２０による推定結果を表示する画面として、原文の文書４９に、コメント表示４９１を対応付けて表示するようにしてもよい。原文の文書４９には、校正の候補となる箇所４９０が、マーカや下線で明示される。校正の候補となる箇所４９０に対応付けて、修正の候補がコメント表示４９１に示される。コメント表示４９１に示される修正の候補は、複数あってもよく、複数の修正の候補について、その修正の確からしさ（可能性）が確立で示されてもよい。この例では、「その担当を生産管理の田中さんです。」との原文の文書４９に対し、助詞「を」の部分が校正の候補となる箇所４９０としてマークされている。また、助詞「を」を修正する候補として助詞「は」、「が」、「に」が提案されている。このうち、「は」への修正が確からしい可能性は７８％、「が」への修正が確からしい可能性は７０％、「に」への修正が確からしい可能性は６３％、であることが示されている。
これにより、ユーザは、修正が必要な箇所と、その修正の候補について、複数の候補について修正の確からしさの可能性を検討しながら、対象文書１０における校正作業をより正確に行うことができる。

また、対象文書１０の原文において、校正の候補と推定された箇所にカーソルを合わせる操作を行うと、該当する箇所のコメントがポップアップ表示されるようにしてもよい。これにより、ユーザは、修正が必要な箇所を明確に認識することができ、対象文書１０における校正作業をよりスムーズに行うことができる。

図９は、本発明の実施形態による文書校正支援システム１の動作例を示すシーケンスチャートである。
ステップＳ１０１：
学習装置３０は、過去のチラシ等に用いた校正済みの文書等である学習用の文書から学習用文書データを取得する。
ステップＳ１０２：
学習装置３０は、学習用文書データに前処理を行い、学習データを作成する。学習データは、学習用の文書における助詞と、その助詞が記載された位置を基準として、学習用の文書から抜き出した所定の文字列とを対応付けたデータである。
ステップＳ１０３：
学習装置３０は、学習データを用いて機械学習を実行することにより学習済みモデルを作成する。学習済みモデルは、文書における助詞と、その助詞が正しく用いられた文字列との対応関係を学習したモデルである。
ステップＳ１０４：
学習装置３０は、作成した学習済みモデルを記憶させる。

ステップＳ１０５：
一方、文書校正支援装置２０は、対象文書１０から対象文書データを取得する。
ステップＳ１０６：
文書校正支援装置２０は、対象文書データに前処理を行い、入力データを作成する。入力データは、対象文書１０における助詞と、その助詞が記載された位置を基準として、対象文書１０から抜き出した所定の文字列とを対応付けたデータである。
ステップＳ１０７：
文書校正支援装置２０は、作成した入力データを学習装置３０に送信する。

ステップＳ１０８：
学習装置３０は、文書校正支援装置２０から入力データを受信し、受信した入力データを学習済みモデルに入力する。
ステップＳ１０９：
学習装置３０は、入力データを学習済みモデルに入力することにより得られた出力結果を、文書校正支援装置２０に送信する。

ステップＳ１１０：
文書校正支援装置２０は、学習装置３０から出力結果を受信する。出力結果は、例えば、入力データにおいて示された助詞の位置に記載されるべき助詞の候補が、その記載されるべき確からしさ度合い（出現確率）と共に示されたものである。
ステップＳ１１１：
文書校正支援装置２０は、出力結果に基づいて、入力データ（原文）に示された助詞の用法について誤りがあるか否かを推定する。文書校正支援装置２０は、例えば、出力結果に示された記載されるべき確率の高い助詞の候補と、原文の助詞とが一致しない場合に、原文に示された助詞の用法について誤りがあると推定する。
ステップＳ１１２：
文書校正支援装置２０は、推定結果を端末装置４０に出力させる。推定結果は、原文に示された助詞の用法について誤りがある箇所を示すものである。或いは、原文に示された助詞の用法について誤りがある箇所について、正しい用法を修正例として示すものであってもよい。

以上説明したように、実施形態の文書校正支援システム１は、助詞を含む学習用文書に基づいて、学習用文書と学習用文書に記載された助詞との対応関係であって、文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習部３０３と、対応関係を学習した学習済みモデルを記憶する学習済みモデル記憶部３０７と、校正対象である対象文書データを取得する取得部２０１と、対象文書データにおける助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部２０３と、を備える。

これにより、実施形態の文書校正支援システム１は、学習済みモデルを用いることができ、学習済みの文書における文字列と、対象文書１０における文字列との一致不一致ではなく、互いの類似度合いに応じた推定をすることができる。すなわち、予め登録してある構文との一致不一致を判定する方法とは異なる方法で、文書における校正が必要な箇所を抽出することができる。

ここで、比較例として、予め登録した構文との一致不一致に基づいて、助詞の用法誤りを抽出する構成を考える。
例えば、助詞「を」の対象を示す用法として、「私は商品を売った」という構文を登録した場合、対象文書１０が「私は商品を売った」という文書であれば、対象文書１０に用いられた助詞の用法に誤りがないと判定できる。しかし、対象文書１０が「私は商品を買った」や、「私は漫画を買った」という文書である場合には、「私は商品を売った」という予め登録された構文と一致しないために、対象文書１０に用いられた助詞の用法に誤りがあると誤認識され、「私は商品を買った」や、「私は漫画を買った」という文書が校正の候補として抽出されてしまう可能性がある。
一方で、「私は商品を売った」という文書のみではなく、「私は商品を買った」、「私は漫画を買った」という構文を予め登録させておくことで、上述した誤認識をなくそうとすれば、助詞「を」とその前後に記載される名詞や動詞の、あらゆる組合せを網羅的に登録しなければなくなり、現実的でない。

これに対し、本実施形態では、学習済みモデルを用いることにより、「私は商品を売った」という文書が学習済みであれば、「私は商品を買った」という対象文書１０に対し、対象の「私は商品を買った」と、学習済みの「私は商品を売った」との文書の互いの類似度合いを算出することができる。例えば、「商品を売った」と、「商品を買った」との文字列の、ベクトル空間における互いの距離が近ければ、両者は一致しないものの類似していると判断することができる、両者が類似した文書であれば、対象文書１０において「商品」と「買った」の間に用いられるべき助詞は、学習済みの「商品を売った」との文書に用いられている助詞と同じ助詞である「を」であることが確からしいと推定することが可能となる。つまり、「私は商品を売った」という文書のみを学習させれば、類似する対象文書１０における助詞の用法の誤りがあるか否かを推定することが可能となる。

また、実施形態の文書校正支援システム１では、対象文書１０から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、対象文書１０における対象助詞の位置を基準として対象文書１０から抜き出した文字列と、対象助詞とを対応付けた入力データを作成する前処理部２０２、を更に備え、推定部２０３は、入力データを学習済みモデルに入力させることにより得られる出力結果を用いて推定する。これにより、実施形態の文書校正支援システム１は、対象文書１０について前処理を行うことができ、学習済みモデルに用いた学習データと同じ前処理を行うことにより、推定をし易くすることができる。

また、実施形態の文書校正支援システム１では、前処理部２０２は、対象助詞が複数ある場合、対象助詞の各々について入力データを作成することにより、対象文書１０に記載された助詞の各々について、用法の誤りを推定することができる。
この場合において、文書校正支援装置２０は、例えば、対象文書１０の文頭から順に助詞の用法について誤りがあるか否かを推定する。文書校正支援装置２０は、誤りがあると推定された助詞について、その助詞の位置に記載されるべき助詞の候補のうち最も確からしい助詞を反映させた修正案文書を作成し、作成した修正案文書に基づいて入力データを作成するようにしてもよい。これにより、ある助詞について誤りがある場合にその誤りを修正した文書に基づいて、他の助詞の用法誤りを推定することができ、より精度よく推定することが可能である。

また、実施形態の文書校正支援システム１では、学習済みモデルにより算出された入力データと類似する学習用文書に用いられた助詞の出現確率に基づいて、推定対象とする助詞の用法に誤りがあるか否かを推定する。これにより、実施形態の文書校正支援システム１では、学習済みの文書のうち、対象文字列と類似する文章に出現する出現確率を用いて定量的に、推定対象とする助詞の用法に誤りがあるか否かを推定することができる。
また、実施形態の文書校正支援システム１では、推定部２０３は、対象助詞の用法に誤りがあると推定する場合、出現確率が所定の閾値以上の助詞を、当該誤りがある助詞の位置に記載されるべき助詞の候補である助詞候補として推定する。これにより、実施形態の文書校正支援システム１では、対象文書１０の助詞の用法に誤りがあるか否かのみならず、誤りがあると推定された場合に、その修正案を定量的な出現確率に基づいて示すことができる。

また、実施形態の文書校正支援システム１では、推定部２０３は、助詞候補について、対象文書における対象助詞の位置に記載すべき度合いを推定する。これにより、実施形態の文書校正支援システム１では、誤りがあると推定された場合における修正案の確からしさを数値で定量的に示すことができる。

また、実施形態の文書校正支援システム１では、推定部２０３は、出現確率に基づいて助詞候補を複数推定する。これにより、実施形態の文書校正支援システム１では、誤りがあると推定された場合における修正案が複数ある場合にも、各々の修正案についてその確からしさを数値で定量的に示すことができる。

また、実施形態の文書校正支援システム１では、推定部２０３は、出現確率が所定の閾値未満である助詞候補と、対象助詞とが一致する場合、対象文書における用法が誤っていると推定する。これにより、実施形態の文書校正支援システム１では、原文の助詞の位置に記載されるべきと推定された助詞の確からしさ度合いに応じて、推定された助詞と原文の助詞とを比較するという容易な方法により、対象文書１０における用法が誤っているか否かを推定することができる。

また、実施形態の文書校正支援システム１では、推定部２０３は、助詞候補のうち、前記出現確率が均衡する助詞の何れかと、対象助詞と一致する場合、対象文書１０における対象助詞の用法が正しいと推定する。これにより、実施形態の文書校正支援システム１では、原文の助詞の位置に記載されるべきと推定された助詞が所定の出現確率に満たない場合でも、複数の助詞の出現確率が均衡しており、何れの助詞を用いた場合であってもその用法が正しいと推測して対象文書１０における推定対象の助詞の用法が誤っているか否かを推定することができる。

また、実施形態の文書校正支援システム１では、推定部２０３による推定結果に基づいて、対象文書１０における助詞の用法の誤りがあると推定された箇所を示すデータを出力する出力部２０４を、更に備える。これにより、実施形態の文書校正支援システム１では、対象文書１０において誤りと推定される箇所をユーザに示すことができ、校正作業を支援することができる。
また、実施形態の文書校正支援システム１では、出力部２０４は、対象文書１０における助詞の用法の誤りがあると推定された箇所についての修正案を示すデータを出力する。これにより、実施形態の文書校正支援システム１では、対象文書１０において誤りと推定される箇所についての修正案をユーザに示すことができ、校正作業を支援することができる。
また、実施形態の文書校正支援システム１では、出力部２０４は、対象文書１０における助詞の用法の誤りがあると推定された箇所についての修正案を、その修正の確からしさと共に示すデータを出力する。これにより、実施形態の文書校正支援システム１では、対象文書１０において誤りと推定される箇所についての修正案をその確からしさと共にユーザに示すことができ、校正作業を支援することができる。

また、実施形態の文書校正支援装置２０は、対象文書１０を取得する取得部２０１と、対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部２０３と、を備え、学習済みモデルは、助詞を含む学習用文書に基づいて、学習用文書と学習用文書に記載された助詞との対応関係であって、学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルである。このため、実施形態の文書校正支援装置２０は、学習済みモデルを用いることができ、上述した効果と同様の効果を奏することができる。

また、実施形態の学習装置３０は、助詞を含む学習用文書に基づいて、学習用文書と学習用文書に記載された助詞との対応関係であって、学習用文書における助詞の位置に記載されるべき助詞の候補である助詞候補を示す対応関係を学習する学習部３０３を備える。このため、実施形態の学習装置３０は、文書と文書に記載された助詞との対応関係について学習することができ、上述した効果と同様の効果を奏することができる。

（実施形態の変形例）
次に実施形態の変形例について説明する。本変形例では、対象文書１０において誤りがあると推定された箇所について、修正案をその修正の確からしさ度合い（確率）と共に示す点、及び修正案を対象文書１０に反映させることができる点において、上述した実施形態と異なる。以下の説明では、上述した実施形態と同様の構成については同じ符号を付してその説明を省略し、上述した実施形態と異なる構成についてのみ説明する。

図１０は、本発明の実施形態の変形例による文書校正支援装置２０Ａの構成例を示すブロック図である。
文書校正支援装置２０Ａは、入出力部２０４Ａと、制御部２０６Ａを備える。
入出力部２０４Ａは、端末装置４０と情報のやり取りを行う。入出力部２０４Ａは、端末装置４０に推定結果を示す表示データを出力する。入出力部２０４Ａには、端末装置４０から修正に関する操作を示す情報が入力される。入出力部２０４Ａは、端末装置４０から入力された修正に関する操作を示す情報を制御部２０６Ａに出力する。
制御部２０６Ａは、入出力部２０４Ａからの修正に関する操作を示す情報に基づいて、対象文書１０を修正する。制御部２０６Ａは、例えば、文書データ記憶部２０７を参照し、対象文書１０の文書データを修正する。制御部２０６Ａは、修正した対象文書１０の文書データを文書データ記憶部２０７に記憶させる。

図１１は、本発明の実施形態の変形例による端末装置４０の表示例を示す図である。
図１１に示すように、本変形例では、端末装置４０は、原文表示窓４２における枠で囲まれた番号、或いは、アラーム表示窓４３におけるアラート番号がクリック操作された場合、その番号に該当する原文の記載、及び校正の候補とするコメントの内容を拡大した画像４６Ａを、画面中央付近に表示する。画像４６Ａには、修正を反映させるための操作ボタン４３１が表示される。この例では、文書４２０における助詞「を」の記載を助詞「は」に修正する操作ボタン４３１が示されている。

例えば、端末装置４０に表示された操作ボタン４３１がユーザによりクリック操作されると、その操作の情報が端末装置４０の入力部（不図示）に入力される。端末装置４０は、入力部に入力された操作の情報に基づいて対象文書１０を修正する。そして、端末装置４０は、修正した対象文書１０の文書データを、端末装置４０の通信部（不図示）を介して文書校正支援装置２０Ａに出力する。
文書校正支援装置２０Ａは、入出力部２０４Ａにより、端末装置４０から修正した対象文書１０の文書データを受信する。そして、文書校正支援装置２０Ａは、制御部２０６Ａにより受信した文書データに基づいて、文書データ記憶部２０７に記憶した対象文書データを更新する。

或いは、端末装置４０は、入力部に入力された操作の情報を、端末装置４０の通信部を介して文書校正支援装置２０Ａに出力するようにしてもよい。
文書校正支援装置２０Ａは、入出力部２０４Ａにより、端末装置４０から操作の情報を受信する。そして、文書校正支援装置２０Ａは、制御部２０６Ａにより、受信した操作の情報に基づいて文書データ記憶部２０７に記憶した対象文書データを修正する。

以上説明したように、実施形態の変形例の文書校正支援システム１では、出力部２０４は、対象文書１０における助詞の用法の誤りがあると推定された箇所についての修正案をその修正の確からしさと共に示すデータを出力する。これにより、実施形態の文書校正支援システム１では、対象文書１０において誤りと推定される箇所についての修正案を、その修正の確からしさと共にユーザに示すことができる。
以上説明したように、実施形態の変形例の文書校正支援システム１では、対象文書１０における助詞の用法の誤りがあると推定された箇所についての修正案を反映するための操作入力部を更に備える。これにより、実施形態の文書校正支援システム１では、対象文書１０において誤りと推定される箇所についての修正案を、その修正の確からしさと共にユーザに示すことができる。

上述した実施形態における文書校正支援システム１、文書校正支援装置２０（２０Ａ）、及び学習装置３０の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…文書校正支援システム
１０…対象文書
２０…文書校正支援装置
２０１…取得部
２０２…前処理部
２０３…推定部
２０４…出力部
２０５…通信部
２０６…制御部
２０７…文書データ記憶部
３０…学習装置
３０１…取得部
３０２…前処理部
３０３…学習部
３０４…出力部
３０５…通信部
３０６…制御部
３０７…学習済みモデル記憶部
４０…端末装置

Claims

助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習部と、
前記対応関係を学習した学習済みモデルを記憶する記憶部と、
校正対象である対象文書を取得する取得部と、
前記対象文書における助詞の用法に誤りがあるか否かを、前記学習済みモデル学習済みモデルを用いて推定する推定部と、
前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、
を備え、
前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
文書校正支援システム。
前記前処理部は、前記対象助詞が複数ある場合、前記対象助詞の各々について前記入力データを作成する
請求項１に記載の文書校正支援システム。
前記推定部は、前記対象助詞の用法に誤りがあると推定する場合、前記出現確率が所定の閾値以上の助詞を、当該誤りがある助詞の位置に記載されるべき助詞の候補である助詞候補として推定する
請求項１に記載の文書校正支援システム。
前記推定部は、前記出現確率に基づいて前記助詞候補を複数推定する
請求項３に記載の文書校正支援システム。
前記推定部は、前記出現確率が均衡する複数の助詞が存在せず、前記出現確率が所定の閾値未満である助詞と前記対象助詞とが一致する場合、前記対象文書における用法が誤っていると推定する、
請求項１に記載の文書校正支援システム。
前記推定部による推定結果に基づいて、前記対象文書における助詞の用法の誤りがあると推定された箇所を示すデータを出力する出力部、
を更に備える、
請求項１から請求項５のいずれか一項に記載の文書校正支援システム。
前記出力部は、前記対象文書における助詞の用法の誤りがあると推定された箇所についての修正案を示すデータを出力する、
請求項６に記載の文書校正支援システム。
前記出力部は、前記対象文書における助詞の用法の誤りがあると推定された箇所についての修正案を、その修正の確からしさを示す度合いと共に示すデータを出力する、
請求項７に記載の文書校正支援システム。
前記対象文書の修正内容に関する操作情報が入力される入力部と、
前記入力部に入力された前記操作情報に基づいて、前記対象文書を修正する制御部、
を更に備える請求項１から請求項８のいずれか一項に記載の文書校正支援システム。
校正対象である対象文書を取得する取得部と、
前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部と、
前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、
を備え、
前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、
前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
文書校正支援装置。
学習部が、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習工程と、
記憶部が、前記対応関係を学習した学習済みモデルを記憶する記憶工程と、
取得部が、校正対象である対象文書を取得する取得工程と、
推定部が、前記対象文書における助詞の用法に誤りがあるか否かを、前記学習済みモデルを用いて推定する推定工程と、
前処理部が、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理工程と、
を有する文書校正支援方法であって、
前記推定工程では、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
文書校正支援方法。
取得部が、校正対象である対象文書を取得する取得工程と、
推定部が、前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定工程と、
前処理部が、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理工程と、
を有する文書校正支援方法であって、
前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、
前記推定工程では、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
文書校正支援方法。
コンピュータを、請求項１から請求項９のいずれか一項に記載の文書校正支援システムとして動作させるためのプログラムであって、前記コンピュータを前記文書校正支援システムが備える各部として機能させるためのプログラム。
コンピュータを、請求項１０に記載の文書校正支援装置として動作させるためのプログラムであって、前記コンピュータを前記文書校正支援装置が備える各部として機能させるためのプログラム。