JP7222218B2 - 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム - Google Patents

文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム Download PDF

Info

Publication number
JP7222218B2
JP7222218B2 JP2018204307A JP2018204307A JP7222218B2 JP 7222218 B2 JP7222218 B2 JP 7222218B2 JP 2018204307 A JP2018204307 A JP 2018204307A JP 2018204307 A JP2018204307 A JP 2018204307A JP 7222218 B2 JP7222218 B2 JP 7222218B2
Authority
JP
Japan
Prior art keywords
document
target
particle
learning
particles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018204307A
Other languages
English (en)
Other versions
JP2020071608A (ja
Inventor
尚徳 金山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Inc
Original Assignee
Toppan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Inc filed Critical Toppan Inc
Priority to JP2018204307A priority Critical patent/JP7222218B2/ja
Publication of JP2020071608A publication Critical patent/JP2020071608A/ja
Application granted granted Critical
Publication of JP7222218B2 publication Critical patent/JP7222218B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラムに関する。
従来、ワードプロセッサ、ワープロなどと呼ばれる文書作成編集装置により作成された文書について、文法チェック、スペルチェック、単語チェックなどを行う文書校正機能がある。このような文章校正機能は、例えば、日本語の入力、編集、仮名漢字変換、各種の辞書など文書作成編集装置が備える基本技術を用いて、予め登録してある単語や構文と一致するか否かを判定することにより、作成された文書の文法誤りなど校正が必要な箇所を抽出する。例えば、特許文献1には、文書において校正が必要な箇所を提示する技術が開示されている。
特開昭63-229562号公報
しかしながら、上述した文書校正機能では、予め登録してある単語や構文との一致不一致に基づいて校正が必要か否かを判定する方法であるため、例えば、予め登録されていないものについては校正の必要があるか否かの判定を行うことができない。一方で、あらゆる単語や構文を登録しようとすれば、際限がなく現実的ではない。
本発明は、このような状況に鑑みてなされたもので、予め登録してある単語や構文との一致不一致を判定する方法とは異なる方法で、文書において校正が必要な箇所を抽出することができる文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラムを提供することを目的とする。
本発明の、文書校正支援システムは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習部と、前記対応関係を学習した学習済みモデルを記憶する記憶部と、校正対象である対象文書を取得する取得部と、前記対象文書における助詞の用法に誤りがあるか否かを、前記学習済みモデルを用いて推定する推定部と、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、を備え、前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定することを特徴とする。
本発明の、文書校正支援装置は、校正対象である対象文書を取得する取得部と、前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部と、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、を備え、前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定することを特徴とする。
本発明の、文書校正支援方法は、取得部が、校正対象である対象文書を取得する取得工程と、推定部が、前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定工程と、前処理部が、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理工程と、を有する文書校正支援方法であって、前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、前記推定工程では、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定することを特徴とする。
本発明の、プログラムは、コンピュータを、上記に記載の文書校正支援システムとして動作させるためのプログラムであって、前記コンピュータを前記文書校正支援装置が備える各部として機能させるためのプログラムことを特徴とする。
本発明の、プログラムは、コンピュータを、上記に記載の文書校正支援装置として動作させるためのプログラムであって、前記コンピュータを前記文書校正支援装置が備える各部として機能させるためのプログラムことを特徴とする。
本発明によれば、学習済みモデルを用いて文書における助詞の用法に誤りがあるか否かを推定することができる。このため、予め登録してある単語や構文との一致不一致を判定する方法とは異なる方法で、文書において校正が必要な箇所を抽出することが可能である。
本発明の実施形態による文書校正支援システム1の適用例、及び文書校正支援システム1の構成例を示すブロック図である。 本発明の実施形態による文書校正支援装置20の構成例を示すブロック図である。 本発明の実施形態による学習装置30構成例を示すブロック図である。 本発明の実施形態による対象文書10の例を示す図である。 本発明の実施形態による文書校正支援装置20の動作を説明する図である。 本発明の実施形態による端末装置40の表示例を示す図である。 本発明の実施形態による端末装置40の表示例を示す図である。 本発明の実施形態による端末装置40の表示例を示す図である。 本発明の実施形態による文書校正支援システム1の動作例を示すシーケンスチャートである。 本発明の実施形態の変形例による文書校正支援装置20Aの構成例を示すブロック図である。 本発明の実施形態の変形例による端末装置40の表示例を示す図である。
以下、本発明の実施形態について、図面を参照して説明する。
(実施形態)
まず、実施形態について説明する。本実施形態では、文書における助詞の用法に誤りがある箇所を、校正が必要な箇所として抽出する場合を例示して説明する。
図1は、本発明の実施形態による文書校正支援システム1の構成例を示すブロック図である。文書校正支援システム1は、システムに入力された文書における助詞の用法が誤っている箇所を推定し、当該箇所を表示することにより、校正を支援するシステムである。図1に示すように、文書校正支援システム1は、例えば、対象文書10と、文書校正支援装置20と、学習装置30と、端末装置40とを備える。文書校正支援装置20と学習装置30とは通信可能に接続される。
対象文書10は、校正の対象となる文書である。対象文書10は、配布や閲覧など様々な目的のために作成される文書であり、例えば、チラシ、カタログ、パンフレット等の印刷媒体に印刷するために作成される各種ドキュメントである。対象文書10は、例えば、印刷される前の段階において、文書校正支援装置20により文書の記載に誤りがないかが推定され、誤りがあると推定された場合に当該誤りが端末装置40に表示される。
文書校正支援装置20は、対象文書10において記載に誤りがある箇所を推定するパーソナルコンピュータ、サーバ装置等である。文書校正支援装置20には対象文書10の電子データ(以下、対象文書データと称する)が入力される。ここで、文書校正支援装置20に入力される電子データは、文字データが埋め込まれたものに限定されない。例えば、スキャンした資料等にOCR(Optical Character Recognition)等の文字認識処理を行った電子データであっても良い。また、このOCR等の処理は、校正段階に限らず、入稿段階において行われたものであってもよい。文書校正支援装置20は、学習装置30を用いて対象文書10における記載の誤りの有無を推定し、誤りがあると推定された場合、当該推定された箇所を表示する表示データを、端末装置40に出力する。
学習装置30は、文書における記載の誤りを推定するための学習を行うパーソナルコンピュータ、サーバ装置等である。学習装置30は、例えば、記載の誤りがない文書を用いて機械学習を実行することにより、学習済みモデルを作成する。この学習モデルは、入力された文書について、記載の誤りがあるか否かを推定した結果を出力するモデルである。学習モデルの作成方法については、後で詳しく説明する。
端末装置40は、ユーザである校正作業者が利用する端末である。例えば、端末装置40は、PC(Personal Computer)スマートフォン等の携帯電話、タブレット端末等である。端末装置40は、対象文書10において記載に誤りがあると推定された箇所(修正すべき箇所)を表示する。
本実施形態では、対象文書10は少なくとも助詞を含む文書であり、文書校正支援装置20は対象文書10における助詞の用法に誤りがあるか否か推定する。すなわち、文書校正支援システム1は、対象文書10における助詞の用法の誤りの有無を推定して表示することにより、対象文書10について校正作業をするユーザに、対象文書10について修正が必要な箇所を提示し校正作業を支援する。
図2は、本発明の実施形態による文書校正支援装置20の構成例を示すブロック図である。文書校正支援装置20は、例えば、取得部201と、前処理部202と、推定部203と、出力部204と、通信部205と、制御部206と、文書データ記憶部207とを備える。
取得部201は、対象文書10の電子データである対象文書データを取得する。取得部201は、例えば、文書校正支援装置20が接続された通信ネットワークを介して、或いは、対象文書データが記憶されたUSB(Universal Serial Bus)メモリ等の記録媒体から、文書校正支援装置20のUSBコネクタ等を介して対象文書データを取得する。
前処理部202は、取得部201を介して対象文書10の電子データを取得する。前処理部202は、取得したデータの前処理を行うことにより、学習済みモデルに入力する入力データを作成する。ここで、前処理とは、文書における助詞の用法に誤りがあるか否かの推定がし易いようにデータを処理することである。
例えば、前処理部202は、対象文書10について形態素解析を行い、対象文書10を品詞ごとに分離する。
前処理部202は、品詞ごとに分離した対象文書10から、校正の対象となる助詞を抽出する。前処理部202は、抽出した助詞のうちの何れかの助詞をその用法に誤りがあるか否かを推定する対象の助詞(以下、推定対象の助詞という)とする。前処理部202は、対象文書10から対象文書10における当該推定対象の助詞の位置を基準とした所定の文字列を、学習済みモデルに入力させることにより、推定対象の助詞を校正するか否かを判定させる対象文字列として抜き出す。
ここでの推定対象の助詞の位置とは、対象文書10において推定対象の助詞が記載された位置であって、当該推定対象の助詞の前後の少なくとも何れかに記述される名詞又は動詞との関係から記載される位置である。
また、ここで対象文字列は、例えば、対象文書10推定対象の助詞の用法について誤りがあるか否かを推定することが可能な程度の長さの文字列であり、例えば、対象文書10における助詞について、その助詞が用いられた箇所の文字列である。
この前処理部202により抜き出される対象文字列は、対象文書10に記載される内容や、記載量、或いは、文書校正支援装置20の処理能力等に応じて任意に定められてよい。例えば、前処理部202により抜き出される対象文字列は、推定対象の助詞の前後に記載された名詞句又は動詞句を含む文字列であってもよいし、推定対象の助詞の前後に記載された所定の文字数の文字列であってもよい。また、対象文字列は、推定対象の助詞の前、又は後に記載される文字列のみであってもよいし、抜き出した文字列に句点や読点、或いは記号等が含まれていてもよい。また、抜き出した対象文字列には、基準となった推定対象の助詞が含まれていてもよいし、含まれていなくともよい。
前処理部202は、抜き出した対象文字列に、その抜き出す際に基準とした位置に記載された推定対象の助詞を対応付けたデータを、学習済みモデルに入力する入力データとして作成する。前処理部202は、対象文書10にいて記載された助詞の各々を推定対象の助詞として、上述した学習済みモデルに入力する入力データを作成する。
推定部203は、学習装置30の学習済みモデルに、前処理部202により作成された入力データを入力することにより得られる出力に基づいて、対象文書10における助詞の用法に誤りがあるか否かを推定する。
出力部204は、推定部203により推定された推定結果を出力する。出力部204は、例えば、端末装置40に推定結果を出力することにより、対象文書10における助詞の用法に誤りがある箇所を表示させる。
通信部205は、学習装置30と通信を行う。通信部205は、学習装置30に学習済みモデルに入力する入力データを送信する。通信部205は、学習装置30から学習済みモデルによる出力結果を受信する。
制御部206は、文書校正支援装置20を統括的に制御する。制御部206は、例えば、取得部201により取得された対象文書データを、前処理部202に出力させる。制御部206は、前処理部202により作成された入力データを推定部203に出力させる。また、制御部206は、推定部203により推定された推定結果を出力部204に出力させる。制御部206は、推定部203が推定を行う場合において、学習済みモデルに入力する入力データを通信部205により学習装置30に送信させると共に、学習装置30からの出力結果を受信させる。また、制御部206は、取得部201により取得された対象文書データを文書データ記憶部207に記憶させる。
文書データ記憶部207は、対象文書データを記憶する。
図3は、本発明の実施形態による学習装置30構成例を示すブロック図である。学習装置30は、取得部301と、前処理部302と、学習部303と、通信部305と、制御部306と、学習済みモデル記憶部307とを備える。
取得部301と前処理部302とは、処理の対象が学習用の文書である点において相違するが、機能については取得部301と前処理部202と同等である。このため、以下の説明においては、取得部301と前処理部302との機能についての説明を省略し、相違点についてのみ説明をする。
取得部301は、学習用の文書における文書データである学習用文書データを取得する。学習用の文書は、例えば、過去のチラシやカタログ等、校正済みの文書である。学習用の文書として、校正済みの文書を用いることにより、助詞の用法について誤りがない文書を用いて、助詞とその助詞の用法について学習することが可能である。
前処理部302は、学習用文書データについて前処理を行うことにより、学習部303に入力する学習データを作成する。ここでの学習データは、学習用の文書において抽出された助詞と、学習用の文書においてその助詞が記載された位置を基準とした所定の文字列とを対応付けたデータである。
学習部303は、前処理部302により作成された学習データを用いて機械学習を実行することにより学習済みモデルを作成する。本実施形態における機械学習は、例えば、教師あり学習である。学習済みモデルを作成する機械学習の技法としては、畳み込みニューラルネットワーク、サポートベクタマシン、決定木学習、遺伝的プログラミング、などの一般的に用いられている技法のいずれが用いられてもよい。
学習部303により作成された学習済みモデルは、助詞の用法について誤りがない学習用の文書を学習データ(教師データ)として学習する。このことから、学習済みモデルには、助詞を含む文章について、その助詞が正しく用いられた文章が学習されている。このため、学習済みの文章と校正対象の文章とが、助詞以外の部分で比較して類似する場合に、同じ助詞が用いられていれば、校正対象の文章において助詞が正しい用法で用いられている可能性が高い。
学習済みモデルには、文書校正支援装置20により作成された入力データ(対象文書10における助詞と、その助詞が記載された位置を基準として抜き出された所定の文字列とが対応付けられたデータ)が入力される。そして、学習済みモデルは、例えば、入力データにおける文字列から推定対象の助詞を除いた文字列(除外済みの対象文字列という)と、学習済みの学習データにおける文字列に用いられている助詞を除いた文字列(除外済みの学習用文字列という)との類似度合いを算出する。ここでの類似度合いとは、除外済みの対象文字列と除外済みの学習用文字列とが似ているか否かを示す度合いであり、例えば、類似度合いを表現するベクトル空間における距離として算出される。学習済みモデルは、例えば、除外済みの学習用文字列、及び除外済みの対象文字列の特徴量を数値化(ベクトル表現)して高次元のベクトル空間上に配置する。そして、学習済みモデルは、入力データにおける除外済み対象文字列のベクトル表現と、除外済み学習用文字列のベクトル表現の相関量をコサイン、内積、距離等によって計算した関連度を、類似度合いとして算出する。
学習済みモデルは、例えば、除外済み学習用文字列との関連度が所定の閾値以内である除外済み学習用文字列を、除外済み学習用文字列と類似する文字列と判定する。なお、除外済み対象文字列と類似すると判定される除外済み学習用文字列は、一つの文字列に限定されることはなく、複数の文字列が類似すると判定されてもよい。
学習済みモデルは、除外済み学習用文字列のうち、除外済み対象文字列と類似する文字列に用いられた助詞の出現確率を算出する。そして、例えば、学習済みモデルは、算出した出現確率が所定の閾値以上の助詞が、対象文字列に用いられている推定対象の助詞と一致するか否かを判定する。学習済みモデルは、出現確率が所定の閾値以上の助詞と推定対象の助詞とが一致する場合に、対象文字列における助詞が正しい助詞の正しい用法で用いられていると推定する。すなわち、学習済みモデルは、入力データの文字列に対応付けられた推定対象の助詞が、その推定対象の助詞を除いた文字列に類似する学習データの文字列(除外済みの学習用文字列)に用いられている出現確率が所定の閾値以上の助詞と一致する場合、入力データにおける助詞の用法に誤りがないと推定する。
また、学習済みモデルは、出現確率が所定の閾値未満であっても、学習用文字列に用いられた助詞が複数あって、その各々の助詞の出現確率が均衡している場合には、各々の助詞の何れかと推定対象の助詞とが一致する場合に入力データにおける助詞の用法に誤りがないと推定するようにしてもよい。
例えば、「Aが選んだB」という対象文字列に助詞「が」が対応付けられた入力データを考える。この場合、学習済みモデルは、削除済みの対象文字列(つまり「A/選んだB」との文字列)と類似するものとして、例えば、「A(が)選んだB」「A(の)選んだB」、「A(に)選んだB」、「A(を)選んだB」等を選択する。これらの類似する学習用文字列に用いられている助詞「が」、「の」、「に」、「を」の各々は、いずれも正しい用法で用いられていると考えられるため、各々の出現確率は25%(つまり、1/4)程度で均衡する。このような場合、学習済みモデルは、対象文書に用いられている助詞が「が」、「の」、「に」、「を」の何れかであれば、その助詞の用法に誤りがないと推定する。つまり、学習モデルは、学習用文字列に用いられている助詞が複数あり、そのうちの幾つかの助詞の出現確率が所定の条件で均衡している場合には、その幾つかの助詞の何れもが正しい用法で用いられているとみなしてもよい。ここでの所定の条件で均衡しているとは、出現確率が、全体を助詞の数で割った出現確率と同程度となることであり、例えば、2つの助詞の出現確率がそれぞれ50%(つまり、1/2)程度となること、3つの助詞の出現確率がそれぞれ33%(つまり、1/3)程度となること等である。
もっとも、対象文字列を適切に選択することにより、助詞の用法に誤りがないか否かを推定する精度を向上させることが可能である。例えば、「Aが選んだB」ではなく、「Aが選んだBを表示する」という文字列を対象文字列とすれば、「A(が)選んだBを表示する」「A(の)選んだBを表示する」、「A(に)選んだBを表示する」、「A(を)選んだBを表示する」との文字列は類似すると判定される。しかし、「A(を)選んだBを表示する」との文字列は助詞が正しい用法で用いられていない。このため、助詞「を」の出現確率は、他の助詞「が」、「の」、「に」と比較して小さい確率となる。この場合、少なくとも対象文書に用いられている助詞が「を」であれば、その助詞の用法に誤りがあると推定することが可能である。
通信部305は、文書校正支援装置20と通信を行う。通信部305は、文書校正支援装置20から学習済みモデルに入力する入力データを受信する。通信部205は、文書校正支援装置20に学習済みモデルによる出力結果を送信する。
制御部306は、学習装置30を統括的に制御する。制御部306は、例えば、取得部301により取得された学習用文書データを、前処理部302に出力させる。制御部306は、前処理部302により作成された学習データを学習部303に出力させる。また、制御部306は、学習部303により作成された学習済みモデル記憶部307に記憶させる。制御部306は、文書校正支援装置20からの要求に応じて、学習済みモデルに入力させる入力データを通信部305により受信させると共に、学習済みモデルからの出力結果を文書校正支援装置20に送信させる。
学習済みモデル記憶部307は、学習部303により作成された学習済みモデルを記憶する。
図4は、本発明の実施形態による対象文書10の例を示す図である。
図4に示すように、対象文書10は、例えば、上側に注意書きが記載され、下側に費用の概算が記載された、保険の契約について案内するパンフレットである。この例では、上側の注意書きに記載された文書における「お申し込み」、「お申込み」という文言100、下側の文書に記載された「安全な商品」という文言101、「介護に必要の費用」という文言102、「業界No.1」という文言103、がそれぞれ校正の対象となり得る。文言100は、送り仮名が異なる文言が混在した表記ゆれが発生しているために校正の対象となる。文言101は、「安全」、「絶対」、「永久」等、広告に使用することが禁止されている特定用語が記載されているために校正の対象となる。文言102は、助詞の用法が誤って記載されているために校正の対象となる。文言103は、具体的な裏付けがなく「No.1」などの特定用語が記載されていることから校正の対象となる。
このように、文書校正支援システム1においては、助詞の用法に誤りがあるか否かの推定に加えて、対象文書10における表記ゆれの有無、特定用語の使用の可否などについてチェックがなされ、校正の対象として表示されるようにしてもよい。また、対象文書10における誤字脱字、文体が統一されているか、同一文言が漢字、仮名英数字等で混在して記載されていないか、同音同訓の文言について誤った記載がなされていないか、業界別のレギュレーション(文章ルール)に則っているか等についてチェックがなされ、校正の対象として表示されるようにしてもよい。
ここで、文書校正支援装置20が助詞の用法の誤りを推定する方法について、図5を用いて説明する。図5は、本発明の実施形態による文書校正支援装置20の動作を説明する図である。
文書校正支援装置20の取得部201が、対象文書10として、「私は、商品で買った。」という記載の文書を取得したとする。
前処理部202は、対象文書10を形態素解析して品詞ごとに分離し、「私(名詞)/は(助詞)/商品(名詞)/で(助詞)/買った(動詞)」のような結果(符号200A)を取得する。
前処理部202は、品詞ごとに分離した対象文書データから、「は(助詞)」、「で(助詞)」のような助詞を抽出する(符号200Aにおける丸囲み部分)。
前処理部202は、抽出した助詞の位置を基準として、対象文書10から所定の文字列を抜き出す。例えば、前処理部202は、抽出した助詞「は」について、当該助詞の前後に記載された名詞である「私/商品」の文字列を抜き出す。また、例えば、前処理部202は、抽出した助詞「で」について、当該助詞を挟んで前後に記載された名詞である「商品/買った」の文字列を抜き出す。
前処理部202は、助詞「は」と文字列「私/商品」とを対応付けた入力データ「私/X/商品」(符号200B)を作成する。ここで、Xは、用法の誤りについて推定される助詞(この例では「は」)が記載された位置を示している。
推定部203は、入力データ「私/X/商品」を学習済みモデルに入力させることにより、当該学習済みモデルからの出力結果を得る。この場合における出力結果は、例えば、Xの位置に記載されるべき助詞の確率(出現確率)が示されたものである(符号200D)。
また、前処理部202は、助詞「で」と文字列「商品/買った」とを対応付けた入力データ「商品/Y/買った」(符号200C)を作成する。ここで、Yは、用法の誤りについて推定される助詞(この例では「で」)が記載された位置を示している。
推定部203は、入力データ「商品/Y/買った」を学習済みモデルに入力させることにより、当該学習済みモデルからの出力結果を得る。この場合における出力結果は、例えば、Yの位置に記載されるべき助詞の確率が示されたものである(符号200E)。
推定部203は、学習済みモデルからの出力結果に基づいて、対象文書10における助詞「は」及び「で」の位置に記載されるべき助詞を推定する。
例えば、推定部203は、入力データにおける助詞「は」の位置に記載されるべき助詞が、「は」又は「が」である確率が80%であることから、助詞「は」の位置に、助詞「は」が記載されることは確からしい用法であり、用法に誤りはないと推定する。
一方、推定部203は、入力データにおける助詞「で」の位置に記載されるべき助詞が、「を」である確率が90%であることから、助詞「で」の位置に、助詞「を」が記載されることがより確からしい用法であり、入力データにおける助詞「で」の用法が誤りであると推定する。
出力部204は、推定結果として、入力データにおける助詞「で」の用法に誤りがある旨を出力する(符号200F)。
或いは、出力部204は、推定結果として、入力データにおける助詞「で」の用法に誤りがあると推定され、より確からしい用法として、助詞「を」記載した文書を出力する(符号200G)ようにしてもよい。
ここで、文書校正支援装置20による推定結果が端末装置40に表示される例について、図6~図8を用いて説明する。図6~図8は、本発明の実施形態による端末装置40の表示例を示す図である。
図6に示すように、例えば、端末装置40は、文書校正支援装置20による推定結果を表示する画面として、案内表示窓41と、原文表示窓42と、アラーム表示窓43と、サマリーボタン45とを備える画面を表示する。
案内表示窓41には、例えば、画面を切り替えるショートカットが表示される。この例では、「校正実行」、「校正状況確認」、及び「辞書管理」の各々の画面に切り替えるショートカットが表示され、「校正実行」の画面が選択されている。「校正実行」の画面は、例えば、対象文書10における校正前の原文の文書、及び文書校正支援装置20により推定された校正の候補と推定された箇所が表示される画面である。この画面は、校正作業を行うユーザが、原文と、校正の候補と推定された箇所とを参照して、校正を行うか否かを判断し、校正作業を進めるための画面である。「校正状況確認」の画面は、例えば、原文の文書に校正した内容を反映させた文書が表示される画面であり、ユーザが校正の状況について確認するための画面である。「辞書管理」の画面は、予め登録した辞書が表示される画面であり、ユーザが校正作業の際に辞書を確認するための画面である。
原文表示窓42は、案内表示窓41の「校正実行」が選択された場合に表示される画面であって、対象文書10の原文において、校正の候補と推定された箇所に、枠で囲んだ番号(この例では、16~20の番号)が付されたマーカが記されている。アラーム表示窓43は、原文表示窓42において校正の候補と推定された箇所に付されたマーカの番号を、アラート番号として、当該番号ごとに校正の候補とした内容が記されている。
原文表示窓42における枠で囲まれた番号、或いは、アラーム表示窓43におけるアラート番号がクリック操作されると、その番号に該当する原文の記載、及び校正の候補とするコメントの内容を拡大した画像46が、画面中央付近に表示される。この例では、原文表示窓42における枠で囲まれた「19」の番号がクリック操作された場合を示している。そして、番号19のマーカ421に該当する原文が「その担当を生産管理の田中さんです。」との文書420であり、文書420について、アラート19として、助詞の用法が誤っている可能性があること、及びこの文書における助詞「を」の記載を助詞「は」に修正するコメント430が示されている。
また、原文表示窓42における枠で囲まれた番号、或いは、アラーム表示窓43におけるアラート番号がクリック操作された際に、クリック操作された番号に該当する文書が画面中央に移動したり、該当するアラート番号が点滅したりするようにしてもよい。
これにより、ユーザは、原文において修正が必要な箇所と、その修正の内容について、参照することができ、必要に応じて特定の修正箇所を拡大させることもできるため、対象文書10における校正作業が容易となる。
サマリーボタン45は、ユーザがアラートの内容(校正の候補と推定された箇所と、そのコメント)をまとめて表示させようとする場合にクリック操作されるボタンである。
図7に示すように、サマリーボタン45がクリック操作された場合、対象文書10におけるアラート番号、及びその属性情報やアラートの内容が複数表示された画面が画面中央付近に拡大されてサマリー表示される(符号47)。このサマリー表示では、対象文書10の頁単位、段落単位、章単位等、所定の単位ごとに、その範囲におけるアラートがまとめて表示される。なお、アラート番号に対応する属性情報には、対象文書10の作成元に関する情報や、対象文書10にけるアラート番号に対応する頁、段落、章などが示されていてもよい。
これにより、ユーザは、修正が必要な箇所を、対象文書10の頁単位、段落単位、章単位等、所定の単位ごとに、まとめて認識することができ、対象文書10における校正作業にかかる作業量を把握したり、作業時間を見積もったりすることが容易となる。
また、サマリーボタン45がクリック操作された場合、予め選択されたアラートのみがまとめて表示されるようにしてもよい。これにより、ユーザは、特定の修正についてまとめて認識することができ、文言をどのように統一するかを検討したり、特定の修正の修正量を見積もったりすることが容易となる。
また、図8に示すように端末装置40は、図6、図7の表示とは別の表示を行ってもよい。
図8に示すように、端末装置40は、文書校正支援装置20による推定結果を表示する画面として、原文の文書49に、コメント表示491を対応付けて表示するようにしてもよい。原文の文書49には、校正の候補となる箇所490が、マーカや下線で明示される。校正の候補となる箇所490に対応付けて、修正の候補がコメント表示491に示される。コメント表示491に示される修正の候補は、複数あってもよく、複数の修正の候補について、その修正の確からしさ(可能性)が確立で示されてもよい。この例では、「その担当を生産管理の田中さんです。」との原文の文書49に対し、助詞「を」の部分が校正の候補となる箇所490としてマークされている。また、助詞「を」を修正する候補として助詞「は」、「が」、「に」が提案されている。このうち、「は」への修正が確からしい可能性は78%、「が」への修正が確からしい可能性は70%、「に」への修正が確からしい可能性は63%、であることが示されている。
これにより、ユーザは、修正が必要な箇所と、その修正の候補について、複数の候補について修正の確からしさの可能性を検討しながら、対象文書10における校正作業をより正確に行うことができる。
また、対象文書10の原文において、校正の候補と推定された箇所にカーソルを合わせる操作を行うと、該当する箇所のコメントがポップアップ表示されるようにしてもよい。これにより、ユーザは、修正が必要な箇所を明確に認識することができ、対象文書10における校正作業をよりスムーズに行うことができる。
図9は、本発明の実施形態による文書校正支援システム1の動作例を示すシーケンスチャートである。
ステップS101:
学習装置30は、過去のチラシ等に用いた校正済みの文書等である学習用の文書から学習用文書データを取得する。
ステップS102:
学習装置30は、学習用文書データに前処理を行い、学習データを作成する。学習データは、学習用の文書における助詞と、その助詞が記載された位置を基準として、学習用の文書から抜き出した所定の文字列とを対応付けたデータである。
ステップS103:
学習装置30は、学習データを用いて機械学習を実行することにより学習済みモデルを作成する。学習済みモデルは、文書における助詞と、その助詞が正しく用いられた文字列との対応関係を学習したモデルである。
ステップS104:
学習装置30は、作成した学習済みモデルを記憶させる。
ステップS105:
一方、文書校正支援装置20は、対象文書10から対象文書データを取得する。
ステップS106:
文書校正支援装置20は、対象文書データに前処理を行い、入力データを作成する。入力データは、対象文書10における助詞と、その助詞が記載された位置を基準として、対象文書10から抜き出した所定の文字列とを対応付けたデータである。
ステップS107:
文書校正支援装置20は、作成した入力データを学習装置30に送信する。
ステップS108:
学習装置30は、文書校正支援装置20から入力データを受信し、受信した入力データを学習済みモデルに入力する。
ステップS109:
学習装置30は、入力データを学習済みモデルに入力することにより得られた出力結果を、文書校正支援装置20に送信する。
ステップS110:
文書校正支援装置20は、学習装置30から出力結果を受信する。出力結果は、例えば、入力データにおいて示された助詞の位置に記載されるべき助詞の候補が、その記載されるべき確からしさ度合い(出現確率)と共に示されたものである。
ステップS111:
文書校正支援装置20は、出力結果に基づいて、入力データ(原文)に示された助詞の用法について誤りがあるか否かを推定する。文書校正支援装置20は、例えば、出力結果に示された記載されるべき確率の高い助詞の候補と、原文の助詞とが一致しない場合に、原文に示された助詞の用法について誤りがあると推定する。
ステップS112:
文書校正支援装置20は、推定結果を端末装置40に出力させる。推定結果は、原文に示された助詞の用法について誤りがある箇所を示すものである。或いは、原文に示された助詞の用法について誤りがある箇所について、正しい用法を修正例として示すものであってもよい。
以上説明したように、実施形態の文書校正支援システム1は、助詞を含む学習用文書に基づいて、学習用文書と学習用文書に記載された助詞との対応関係であって、文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習部303と、対応関係を学習した学習済みモデルを記憶する学習済みモデル記憶部307と、校正対象である対象文書データを取得する取得部201と、対象文書データにおける助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部203と、を備える。
これにより、実施形態の文書校正支援システム1は、学習済みモデルを用いることができ、学習済みの文書における文字列と、対象文書10における文字列との一致不一致ではなく、互いの類似度合いに応じた推定をすることができる。すなわち、予め登録してある構文との一致不一致を判定する方法とは異なる方法で、文書における校正が必要な箇所を抽出することができる。
ここで、比較例として、予め登録した構文との一致不一致に基づいて、助詞の用法誤りを抽出する構成を考える。
例えば、助詞「を」の対象を示す用法として、「私は商品を売った」という構文を登録した場合、対象文書10が「私は商品を売った」という文書であれば、対象文書10に用いられた助詞の用法に誤りがないと判定できる。しかし、対象文書10が「私は商品を買った」や、「私は漫画を買った」という文書である場合には、「私は商品を売った」という予め登録された構文と一致しないために、対象文書10に用いられた助詞の用法に誤りがあると誤認識され、「私は商品を買った」や、「私は漫画を買った」という文書が校正の候補として抽出されてしまう可能性がある。
一方で、「私は商品を売った」という文書のみではなく、「私は商品を買った」、「私は漫画を買った」という構文を予め登録させておくことで、上述した誤認識をなくそうとすれば、助詞「を」とその前後に記載される名詞や動詞の、あらゆる組合せを網羅的に登録しなければなくなり、現実的でない。
これに対し、本実施形態では、学習済みモデルを用いることにより、「私は商品を売った」という文書が学習済みであれば、「私は商品を買った」という対象文書10に対し、対象の「私は商品を買った」と、学習済みの「私は商品を売った」との文書の互いの類似度合いを算出することができる。例えば、「商品を売った」と、「商品を買った」との文字列の、ベクトル空間における互いの距離が近ければ、両者は一致しないものの類似していると判断することができる、両者が類似した文書であれば、対象文書10において「商品」と「買った」の間に用いられるべき助詞は、学習済みの「商品を売った」との文書に用いられている助詞と同じ助詞である「を」であることが確からしいと推定することが可能となる。つまり、「私は商品を売った」という文書のみを学習させれば、類似する対象文書10における助詞の用法の誤りがあるか否かを推定することが可能となる。
また、実施形態の文書校正支援システム1では、対象文書10から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、対象文書10における対象助詞の位置を基準として対象文書10から抜き出した文字列と、対象助詞とを対応付けた入力データを作成する前処理部202、を更に備え、推定部203は、入力データを学習済みモデルに入力させることにより得られる出力結果を用いて推定する。これにより、実施形態の文書校正支援システム1は、対象文書10について前処理を行うことができ、学習済みモデルに用いた学習データと同じ前処理を行うことにより、推定をし易くすることができる。
また、実施形態の文書校正支援システム1では、前処理部202は、対象助詞が複数ある場合、対象助詞の各々について入力データを作成することにより、対象文書10に記載された助詞の各々について、用法の誤りを推定することができる。
この場合において、文書校正支援装置20は、例えば、対象文書10の文頭から順に助詞の用法について誤りがあるか否かを推定する。文書校正支援装置20は、誤りがあると推定された助詞について、その助詞の位置に記載されるべき助詞の候補のうち最も確からしい助詞を反映させた修正案文書を作成し、作成した修正案文書に基づいて入力データを作成するようにしてもよい。これにより、ある助詞について誤りがある場合にその誤りを修正した文書に基づいて、他の助詞の用法誤りを推定することができ、より精度よく推定することが可能である。
また、実施形態の文書校正支援システム1では、学習済みモデルにより算出された入力データと類似する学習用文書に用いられた助詞の出現確率に基づいて、推定対象とする助詞の用法に誤りがあるか否かを推定する。これにより、実施形態の文書校正支援システム1では、学習済みの文書のうち、対象文字列と類似する文章に出現する出現確率を用いて定量的に、推定対象とする助詞の用法に誤りがあるか否かを推定することができる。
また、実施形態の文書校正支援システム1では、推定部203は、対象助詞の用法に誤りがあると推定する場合、出現確率が所定の閾値以上の助詞を、当該誤りがある助詞の位置に記載されるべき助詞の候補である助詞候補として推定する。これにより、実施形態の文書校正支援システム1では、対象文書10の助詞の用法に誤りがあるか否かのみならず、誤りがあると推定された場合に、その修正案を定量的な出現確率に基づいて示すことができる。
また、実施形態の文書校正支援システム1では、推定部203は、助詞候補について、対象文書における対象助詞の位置に記載すべき度合いを推定する。これにより、実施形態の文書校正支援システム1では、誤りがあると推定された場合における修正案の確からしさを数値で定量的に示すことができる。
また、実施形態の文書校正支援システム1では、推定部203は、出現確率に基づいて助詞候補を複数推定する。これにより、実施形態の文書校正支援システム1では、誤りがあると推定された場合における修正案が複数ある場合にも、各々の修正案についてその確からしさを数値で定量的に示すことができる。
また、実施形態の文書校正支援システム1では、推定部203は、出現確率が所定の閾値未満である助詞候補と、対象助詞とが一致する場合、対象文書における用法が誤っていると推定する。これにより、実施形態の文書校正支援システム1では、原文の助詞の位置に記載されるべきと推定された助詞の確からしさ度合いに応じて、推定された助詞と原文の助詞とを比較するという容易な方法により、対象文書10における用法が誤っているか否かを推定することができる。
また、実施形態の文書校正支援システム1では、推定部203は、助詞候補のうち、前記出現確率が均衡する助詞の何れかと、対象助詞と一致する場合、対象文書10における対象助詞の用法が正しいと推定する。これにより、実施形態の文書校正支援システム1では、原文の助詞の位置に記載されるべきと推定された助詞が所定の出現確率に満たない場合でも、複数の助詞の出現確率が均衡しており、何れの助詞を用いた場合であってもその用法が正しいと推測して対象文書10における推定対象の助詞の用法が誤っているか否かを推定することができる。
また、実施形態の文書校正支援システム1では、推定部203による推定結果に基づいて、対象文書10における助詞の用法の誤りがあると推定された箇所を示すデータを出力する出力部204を、更に備える。これにより、実施形態の文書校正支援システム1では、対象文書10において誤りと推定される箇所をユーザに示すことができ、校正作業を支援することができる。
また、実施形態の文書校正支援システム1では、出力部204は、対象文書10における助詞の用法の誤りがあると推定された箇所についての修正案を示すデータを出力する。これにより、実施形態の文書校正支援システム1では、対象文書10において誤りと推定される箇所についての修正案をユーザに示すことができ、校正作業を支援することができる。
また、実施形態の文書校正支援システム1では、出力部204は、対象文書10における助詞の用法の誤りがあると推定された箇所についての修正案を、その修正の確からしさと共に示すデータを出力する。これにより、実施形態の文書校正支援システム1では、対象文書10において誤りと推定される箇所についての修正案をその確からしさと共にユーザに示すことができ、校正作業を支援することができる。
また、実施形態の文書校正支援装置20は、対象文書10を取得する取得部201と、対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部203と、を備え、学習済みモデルは、助詞を含む学習用文書に基づいて、学習用文書と学習用文書に記載された助詞との対応関係であって、学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルである。このため、実施形態の文書校正支援装置20は、学習済みモデルを用いることができ、上述した効果と同様の効果を奏することができる。
また、実施形態の学習装置30は、助詞を含む学習用文書に基づいて、学習用文書と学習用文書に記載された助詞との対応関係であって、学習用文書における助詞の位置に記載されるべき助詞の候補である助詞候補を示す対応関係を学習する学習部303を備える。このため、実施形態の学習装置30は、文書と文書に記載された助詞との対応関係について学習することができ、上述した効果と同様の効果を奏することができる。
(実施形態の変形例)
次に実施形態の変形例について説明する。本変形例では、対象文書10において誤りがあると推定された箇所について、修正案をその修正の確からしさ度合い(確率)と共に示す点、及び修正案を対象文書10に反映させることができる点において、上述した実施形態と異なる。以下の説明では、上述した実施形態と同様の構成については同じ符号を付してその説明を省略し、上述した実施形態と異なる構成についてのみ説明する。
図10は、本発明の実施形態の変形例による文書校正支援装置20Aの構成例を示すブロック図である。
文書校正支援装置20Aは、入出力部204Aと、制御部206Aを備える。
入出力部204Aは、端末装置40と情報のやり取りを行う。入出力部204Aは、端末装置40に推定結果を示す表示データを出力する。入出力部204Aには、端末装置40から修正に関する操作を示す情報が入力される。入出力部204Aは、端末装置40から入力された修正に関する操作を示す情報を制御部206Aに出力する。
制御部206Aは、入出力部204Aからの修正に関する操作を示す情報に基づいて、対象文書10を修正する。制御部206Aは、例えば、文書データ記憶部207を参照し、対象文書10の文書データを修正する。制御部206Aは、修正した対象文書10の文書データを文書データ記憶部207に記憶させる。
図11は、本発明の実施形態の変形例による端末装置40の表示例を示す図である。
図11に示すように、本変形例では、端末装置40は、原文表示窓42における枠で囲まれた番号、或いは、アラーム表示窓43におけるアラート番号がクリック操作された場合、その番号に該当する原文の記載、及び校正の候補とするコメントの内容を拡大した画像46Aを、画面中央付近に表示する。画像46Aには、修正を反映させるための操作ボタン431が表示される。この例では、文書420における助詞「を」の記載を助詞「は」に修正する操作ボタン431が示されている。
例えば、端末装置40に表示された操作ボタン431がユーザによりクリック操作されると、その操作の情報が端末装置40の入力部(不図示)に入力される。端末装置40は、入力部に入力された操作の情報に基づいて対象文書10を修正する。そして、端末装置40は、修正した対象文書10の文書データを、端末装置40の通信部(不図示)を介して文書校正支援装置20Aに出力する。
文書校正支援装置20Aは、入出力部204Aにより、端末装置40から修正した対象文書10の文書データを受信する。そして、文書校正支援装置20Aは、制御部206Aにより受信した文書データに基づいて、文書データ記憶部207に記憶した対象文書データを更新する。
或いは、端末装置40は、入力部に入力された操作の情報を、端末装置40の通信部を介して文書校正支援装置20Aに出力するようにしてもよい。
文書校正支援装置20Aは、入出力部204Aにより、端末装置40から操作の情報を受信する。そして、文書校正支援装置20Aは、制御部206Aにより、受信した操作の情報に基づいて文書データ記憶部207に記憶した対象文書データを修正する。
以上説明したように、実施形態の変形例の文書校正支援システム1では、出力部204は、対象文書10における助詞の用法の誤りがあると推定された箇所についての修正案をその修正の確からしさと共に示すデータを出力する。これにより、実施形態の文書校正支援システム1では、対象文書10において誤りと推定される箇所についての修正案を、その修正の確からしさと共にユーザに示すことができる。
以上説明したように、実施形態の変形例の文書校正支援システム1では、対象文書10における助詞の用法の誤りがあると推定された箇所についての修正案を反映するための操作入力部を更に備える。これにより、実施形態の文書校正支援システム1では、対象文書10において誤りと推定される箇所についての修正案を、その修正の確からしさと共にユーザに示すことができる。
上述した実施形態における文書校正支援システム1、文書校正支援装置20(20A)、及び学習装置30の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1…文書校正支援システム
10…対象文書
20…文書校正支援装置
201…取得部
202…前処理部
203…推定部
204…出力部
205…通信部
206…制御部
207…文書データ記憶部
30…学習装置
301…取得部
302…前処理部
303…学習部
304…出力部
305…通信部
306…制御部
307…学習済みモデル記憶部
40…端末装置

Claims (14)

  1. 助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習部と、
    前記対応関係を学習した学習済みモデルを記憶する記憶部と、
    校正対象である対象文書を取得する取得部と、
    前記対象文書における助詞の用法に誤りがあるか否かを、前記学習済みモデル学習済みモデルを用いて推定する推定部と、
    前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、
    を備え
    前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
    文書校正支援システム。
  2. 前記前処理部は、前記対象助詞が複数ある場合、前記対象助詞の各々について前記入力データを作成する
    請求項に記載の文書校正支援システム。
  3. 前記推定部は、前記対象助詞の用法に誤りがあると推定する場合、前記出現確率が所定の閾値以上の助詞を、当該誤りがある助詞の位置に記載されるべき助詞の候補である助詞候補として推定する
    請求項に記載の文書校正支援システム。
  4. 前記推定部は、前記出現確率に基づいて前記助詞候補を複数推定する
    請求項に記載の文書校正支援システム。
  5. 前記推定部は、前記出現確率が均衡する複数の助詞が存在せず、前記出現確率が所定の閾値未満である助詞と前記対象助詞とが一致する場合、前記対象文書における用法が誤っていると推定する、
    請求項に記載の文書校正支援システム。
  6. 前記推定部による推定結果に基づいて、前記対象文書における助詞の用法の誤りがあると推定された箇所を示すデータを出力する出力部、
    を更に備える、
    請求項1から請求項のいずれか一項に記載の文書校正支援システム。
  7. 前記出力部は、前記対象文書における助詞の用法の誤りがあると推定された箇所についての修正案を示すデータを出力する、
    請求項に記載の文書校正支援システム。
  8. 前記出力部は、前記対象文書における助詞の用法の誤りがあると推定された箇所についての修正案を、その修正の確からしさを示す度合いと共に示すデータを出力する、
    請求項に記載の文書校正支援システム。
  9. 前記対象文書の修正内容に関する操作情報が入力される入力部と、
    前記入力部に入力された前記操作情報に基づいて、前記対象文書を修正する制御部、
    を更に備える請求項1から請求項のいずれか一項に記載の文書校正支援システム。
  10. 校正対象である対象文書を取得する取得部と、
    前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定部と、
    前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理部と、
    を備え、
    前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、
    前記推定部は、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
    文書校正支援装置。
  11. 学習部が、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習する学習工程と、
    記憶部が、前記対応関係を学習した学習済みモデルを記憶する記憶工程と、
    取得部が、校正対象である対象文書を取得する取得工程と、
    推定部が、前記対象文書における助詞の用法に誤りがあるか否かを、前記学習済みモデルを用いて推定する推定工程と、
    前処理部が、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理工程と、
    を有する文書校正支援方法であって、
    前記推定工程では、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
    文書校正支援方法。
  12. 取得部が、校正対象である対象文書を取得する取得工程と、
    推定部が、前記対象文書における助詞の用法に誤りがあるか否かを、学習済みモデルを用いて推定する推定工程と、
    前処理部が、前記対象文書から用法に誤りがあるか否かを推定する対象である対象助詞を抽出し、前記対象文書における前記対象助詞の位置を基準として前記対象文書から抜き出した文字列と、前記対象助詞とを対応付けた入力データを作成する前処理工程と、
    を有する文書校正支援方法であって、
    前記学習済みモデルは、助詞を含む学習用文書に基づいて、前記学習用文書と前記学習用文書に記載された助詞との対応関係であって、前記学習用文書における助詞の位置に記載されるべき助詞を示す対応関係を学習したモデルであり、
    前記推定工程では、前記入力データを前記学習済みモデルに入力させることにより得られる、前記入力データと類似する前記学習用文書に用いられた助詞の出現確率に基づいて前記対象文書における助詞の用法に誤りがあるか否かを推定し、前記出現確率が均衡する複数の助詞が存在し、当該出現確率が均衡する複数の助詞の何れかと前記対象助詞とが一致する場合、前記対象文書における前記対象助詞の用法が正しいと推定する、
    文書校正支援方法。
  13. コンピュータを、請求項1から請求項のいずれか一項に記載の文書校正支援システムとして動作させるためのプログラムであって、前記コンピュータを前記文書校正支援システムが備える各部として機能させるためのプログラム。
  14. コンピュータを、請求項10に記載の文書校正支援装置として動作させるためのプログラムであって、前記コンピュータを前記文書校正支援装置が備える各部として機能させるためのプログラム。
JP2018204307A 2018-10-30 2018-10-30 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム Active JP7222218B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018204307A JP7222218B2 (ja) 2018-10-30 2018-10-30 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018204307A JP7222218B2 (ja) 2018-10-30 2018-10-30 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020071608A JP2020071608A (ja) 2020-05-07
JP7222218B2 true JP7222218B2 (ja) 2023-02-15

Family

ID=70547819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018204307A Active JP7222218B2 (ja) 2018-10-30 2018-10-30 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7222218B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7116369B2 (ja) * 2020-12-11 2022-08-10 大日本印刷株式会社 印刷用画像の審査を支援するための情報処理装置、方法、プログラム、及び情報処理システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014109954A (ja) 2012-12-03 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 格助詞識別装置、方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014109954A (ja) 2012-12-03 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 格助詞識別装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
笠原 誠司,日本語学習支援のための自動誤り訂正,[online],2012年03月23日,[2022年8月22日検索],インターネット<URL:http://hdl.handle.net/10061/7567>

Also Published As

Publication number Publication date
JP2020071608A (ja) 2020-05-07

Similar Documents

Publication Publication Date Title
US10657332B2 (en) Language-agnostic understanding
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US8538745B2 (en) Creating a terms dictionary with named entities or terminologies included in text data
EP3591539A1 (en) Parsing unstructured information for conversion into structured data
KR101482430B1 (ko) 전치사 교정 방법 및 이를 수행하는 장치
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
US11520987B2 (en) Automated document analysis comprising a user interface based on content types
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
WO2022267353A1 (zh) 文本纠错的方法、装置、电子设备及存储介质
CN104239289B (zh) 音节划分方法和音节划分设备
US20140380169A1 (en) Language input method editor to disambiguate ambiguous phrases via diacriticization
KR20230061001A (ko) 문서 교정 장치 및 방법
CN112149680A (zh) 错字检测识别方法、装置、电子设备及存储介质
JP7222218B2 (ja) 文書校正支援システム、文書校正支援装置、文書校正支援方法、及びプログラム
CN109670040B (zh) 写作辅助方法、装置及存储介质、计算机设备
KR102117895B1 (ko) Stand-off 주석을 이용한 언어학습용 작문오류 교정장치 및 방법
CN109614494B (zh) 一种文本分类方法及相关装置
US8275620B2 (en) Context-relevant images
US11934779B2 (en) Information processing device, information processing method, and program
Wang et al. What is your Mother Tongue?: Improving Chinese native language identification by cleaning noisy data and adopting BM25
CN112560493B (zh) 命名实体纠错方法、装置、计算机设备和存储介质
JP6766972B1 (ja) 文書校正装置、文書校正方法、及びプログラム
US11790678B1 (en) Method for identifying entity data in a data set
US11651256B1 (en) Method for training a natural language processing model
US11947580B2 (en) Book search apparatus, book search database generation apparatus, book search method, book search database generation method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230117

R150 Certificate of patent or registration of utility model

Ref document number: 7222218

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150