JP2023132893A - 校正支援プログラム,校正支援方法および情報処理装置 - Google Patents
校正支援プログラム,校正支援方法および情報処理装置 Download PDFInfo
- Publication number
- JP2023132893A JP2023132893A JP2022038469A JP2022038469A JP2023132893A JP 2023132893 A JP2023132893 A JP 2023132893A JP 2022038469 A JP2022038469 A JP 2022038469A JP 2022038469 A JP2022038469 A JP 2022038469A JP 2023132893 A JP2023132893 A JP 2023132893A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- sentences
- correction
- morpheme
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000001915 proofreading effect Effects 0.000 title claims abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 55
- 238000012986 modification Methods 0.000 claims description 77
- 230000004048 modification Effects 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 20
- 238000012937 correction Methods 0.000 description 252
- 238000001514 detection method Methods 0.000 description 73
- 238000000605 extraction Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【課題】入力文を適切に変更した出力文を利用者に提示する。【解決手段】入力された第1の文と第1の文に基づいて生成された第1の複数の文とを比較し、第1の文と第1の複数の文との比較から、第1の文における変更位置とこの変更位置に対する変更内容とを特定し、第1の複数の文のうち、変更位置に対する共通する変更内容を含む第2の複数の文が基準を満たす場合、第2の複数の文のうちの基準に対応する文を出力する。【選択図】図7
Description
本発明は、校正支援技術に関する。
近年、事前学習モデルを用いた自然言語処理タスクの一つとして校正技術が研究されている。
校正技術は、入力された文に含まれる誤りを検出し、利用者に提示するものであり、入力に任意の文を与えると、その文に含まれる誤りを修正した文を出力する。
例えば、「おはようございます、と返事おした。」という文を入力として与えた場合に、誤りを修正した文として、「おはようございます、と返事をした。」という文が出力される。
また、従来の校正支援技術においては、入力文に含まれる誤りを利用者に対して提示する手法として、例えば、以下の2つの手法が知られている。
第1の従来手法においては、入力文のうち、校正システムが誤っていると判断した箇所を強調するなどして、修正すべき個所を利用者に提示する。
第2の従来手法においては、入力文に含まれる誤りに対して、誤っていると判断した個所を修正後の内容に置き換えた修正候補文を利用者に提示する。
しかしながら、このような従来の校正支援手法において、上述した第1の従来手法においては、文中の修正個所を利用者に提示するに過ぎず、利用者自身が修正を行なう必要があるため、利用者にかかる負担が大きい。
一方、上述した第2の従来手法においては、利用者に対して複数の修正候補文を提示し、利用者は提示された複数の修正候補文の中から最も適当だと思うものを選択する。しかし、利用者に提示する修正候補文の数によっては、逆に利用者の負担が増加してしまう。
なお、誤変換や脱字等の誤りの種類ごとに辞書を用意し、該当する特定の誤りの辞書を用いて修正候補を生成して提示する手法も考えられる。例えば、誤変換の辞書に登録された修正候補の単語を含む複数の修正候補文を作成して利用者に提示する。
しかしながら、当該手法では、特定の誤りの辞書(例えば、誤変換の辞書)とは無関係の誤り(例えば、脱字)に関する修正を削減することはできるが、該当する種類の誤り(本例では誤変換)に関する修正候補はすべて提示されてしまう。そのため、利用者に対して、妥当でない修正内容の修正候補文も多く提示される。
1つの側面では、本発明は、入力文を校正した出力文を利用者に対して効率的に提示できるようにすることを目的とする。
このため、この校正支援プログラムは、入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する処理をプロセッサに実行させる。
一実施形態によれば、入力文を校正した出力文を利用者に対して効率的に提示できる。
以下、図面を参照して本校正支援プログラム,校正支援方法および情報処理装置にかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
(A)構成
図1は実施形態の一例としての情報処理装置1の構成を模式的に示す図である。
図1は実施形態の一例としての情報処理装置1の構成を模式的に示す図である。
情報処理装置1は、図1に示すように、候補文生成部101および修正候補文抽出部100としての機能を備える。
候補文生成部101は、入力される校正対象の文(入力文)に基づき、当該入力文を修正する候補文(修正候補文)を生成する。修正候補文は、入力文を修正する修正案である。候補文生成部101は、1つの入力文に対して任意の数の修正候補文を生成する。
候補文生成部101は、T5(Text-to-Text Transfer Transformer:Google社)等の既知の自然言語処理モデルを用いて修正候補文を生成してよい。
候補文生成部101が生成した複数の修正候補文は、後述するメモリ12や記憶装置13(図8参照)の図示しない記憶領域に記憶される。
候補文生成部101は、生成した複数の修正候補文の中から入力文を正しく修正できた確率(正解確率,精度)が上位のものから順に選択した所定数(例えば、15個)の修正候補文を修正候補文抽出部100に入力する。
修正候補文が入力文を正しく修正できた確率は、既知の手法を用いて求めることができ、その説明は省略する。
図2は実施形態の一例としての情報処理装置1における入力文および修正候補文を例示する図である。
この図2においては、入力文として「チャーリー高山としてトーク番組の司会も勤めた。」が例示されている。また、修正候補文として、「チャーリー高山としてトーク番組の司会も努めた。」等の15種類の修正候補文が例示されている。本実施形態においては、これらの15種類の修正候補文が修正候補文抽出部100に入力される例を示す。
修正候補文抽出部100は、候補文生成部101から入力された複数の修正候補文の中から、利用者に提示する修正候補文を抽出する修正候補文抽出機能を実現する。
修正候補文抽出部100は、図1に示すように、差分検出部102,共通修正箇所検出部103,共通修正内容検出部104および出力文抽出部105としての機能を備える。
差分検出部102は、入力文と修正候補文とのそれぞれに対して形態素解析を行なうことで、入力文および各修正候補文をそれぞれ形態素単位に分割する。形態素は、それ以上細分化してしまうと意味を成すことのできない最小単位である。
入力文を構成する形態素をそれぞれ入力形態素といってもよく、また、入力文を構成する複数の入力形態素を入力形態素群といってもよい。修正候補文を構成する形態素をそれぞれ修正候補形態素といってもよく、また、修正候補文を構成する複数の修正候補形態素を修正候補形態素群といってもよい。
差分検出部102は、入力形態素群と複数の修正候補形態素群のそれぞれを比較して各差分を検出し、検出した差分を集計する。差分は、修正候補文において入力文に対して修正が実施された箇所を表す。
差分検出部102は、入力文(第1の文)と複数の修正候補文(第1の複数の文)とを比較するに際して、入力文を形態素単位に分割した入力形態素群(第1の形態素群)と、複数の修正候補文(第1の複数の文)のそれぞれを形態素単位に分割した修正候補形態素群(第2の形態素群)とを比較する。
入力形態素群と修正候補形態素群との差分(相違点)において、入力形態素群における入力形態素を修正前形態素といってもよく、修正候補形態素群における修正前形態素に対応する修正候補形態素を修正後形態素といってもよい。
図3は実施形態の一例としての情報処理装置1における差分検出部102の処理を説明するための図である。
図3において、符号Aは図2に例示した入力文を形態素に分割した入力形態素群を示し、符号Bは図2に例示した各修正候補文をそれぞれ形態素に分割した複数の修正候補形態素群を示す。図3の符号A,Bにおいて、各入力形態素および各修正候補形態素のそれぞれを、シングルクォーテーション(‘,’)で囲んで表す。
差分検出部102は、入力形態素群と複数(図3に示す例では15個)の修正候補文形態素群のそれぞれとを比較して、各差分を取得する。
また、図3において、符号Cは符号Aに示す入力形態素群と符号Bに示す各修正候補形態素群との差分の集計結果を示す。
図3の符号Cに示す例においては、入力形態素群と修正候補形態素群との間で検出された差分(相違箇所)を、修正前形態素と修正後形態素とに対応付けて示している。すなわち、右向き矢印の左側に修正前形態素を(符号D参照)、矢印の右側に修正後形態素を(符号E参照)、それぞれ示している。修正前形態素は入力文(第1の文)における変更位置を示す。また、修正後形態素は、修正前形態素に対する変更内容を示す。
差分検出部102は、入力された入力文(第1の文)とこの入力文に基づいて生成された修正候補文(第1の複数の文)とを比較し、入力文と複数の修正候補文との比較から、入力文における変更位置(修正前形態素)とこの修正前形態素に対する変更内容(修正後形態素)とを特定する。
図3の符号Cにおいて、各修正前形態素および各修正後態素のそれぞれを、ダブルクォーテーション(“,”)で囲んで表す。
また、図3の符号Cに示す例において、複数の修正候補文において重複して検出された修正後形態素には、当該修正後形態素に後続する括弧内にその重複数を示す数字を示している。
例えば、修正前形態素“勤め”に対応する修正後形態素“努”には、「(2)」が付されており、入力文の形態素“勤め”が、15個の修正候補文のうちの2つの修正候補文において修正後形態素“努”に修正されていることがわかる。複数の修正候補文における修正後形態素の重複数を修正後形態素重複数といってもよい。
また、修正候補文においては、修正により形態素が増加し、当該修正候補文(修正候補形態素群)を構成する形態素の数が、入力文(入力形態素群)を構成する形態素の数よりも多くなる場合がある。このような場合には、修正後形態素に対応する修正前形態素が入力形態素群に存在しないことになる。
図3の符号Cに示す例においては、修正候補文において増加した修正候補形態素に対して、存在しない修正前形態素の代わりに“<br>”を矢印の左側に示している(符号F参照)。
図3に示す例においては、各修正候補文においては、入力文における「も勤めた」の部分に修正がされたことがわかる。
差分検出部102は、生成した入力形態素,各修正候補形態素および差分の情報をメモリ12や記憶装置13等の所定の記憶領域に記憶させる。
共通修正箇所検出部103は、入力形態素群において、修正箇所閾値(第1の閾値)以上の修正候補文で修正が行なわれている形態素(修正箇所)を検出する。入力形態素群を構成する複数の形態素のうち、修正箇所閾値(第1の閾値)以上の数の修正候補文で修正が行なわれている形態素を、共通修正箇所といってもよい。共通修正箇所検出部103は、共通修正箇所を決定する。
共通修正箇所は、候補文生成部101が生成した複数の修正候補文のうち、入力文に対する正解確率が上位のものから順に選択された複数の修正候補文において多く(修正箇所閾値以上の)修正が行なわれている入力形態素を表す。
修正箇所閾値には任意の値を設定してもよく、例えば、利用者が修正箇所閾値として任意の値を設定してもよい。
共通修正箇所検出部103は、差分検出部102が生成した、入力形態素群と各修正候補形態素群との差分の集計結果に基づいて、共通修正箇所を決定する。共通修正箇所は複数であってもよい。
図4は実施形態の一例としての情報処理装置1の共通修正箇所検出部103による共通修正箇所の決定方法を説明するための図である。
図4において符号Gは、差分検出部102が生成した、入力形態素群と各修正候補形態素群との差分の集計結果を示し、図3の符号Cに示した集計結果を再掲するものである。また、図4において符号Hは、符号Gに示した集計結果に基づいて集計した、修正前形態素のそれぞれに対する修正後形態素の数(延べ数)を示す。修正後形態素の数は、複数の修正候補文において修正が実施された回数を示している。修正後形態素の数は、入力文の同じ場所で複数の修正候補文において修正が実施された回数を示すといってもよい。この符号Hに例示する、修正前形態素のそれぞれに対する修正後形態素の数を示す情報を、修正実施回数情報といってもよい。
図4に示す例において、例えば、入力文における入力形態素“も”は、8個の修正候補文において修正がされていることを示す(符号J1参照)。
共通修正箇所検出部103は、修正実施回数情報に基づき、修正が実施された回数が修正箇所閾値以上の入力形態素を共通修正箇所と決定する。
図4に示す例においては、修正箇所閾値が8である場合に、共通修正箇所検出部103は、修正が実施された回数が8以上である入力形態素“も”,“勤め”,“た”の3つを、それぞれ共通修正箇所と決定する(符号J1~J3参照)。
多くの修正候補文において修正が行なわれた修正前形態素は、修正が必要である可能性が高い形態素であるとみなすことができる。共通修正箇所検出部103は、複数の修正候補文において行なわれた修正の合計数が修正箇所閾値以上の修正前形態素を、修正を行なうべき形態素とみなして共通修正箇所と決定する。
共通修正箇所検出部103は、決定した共通修正箇所を表す情報をメモリ12や記憶装置13等の所定の記憶領域に記憶させる。
共通修正内容検出部104は、共通修正箇所検出部103が決定した共通修正箇所に対応する修正候補形態素のうち、修正内容閾値(第2の閾値)以上の修正候補文で重複して修正に用いられている形態素(修正内容)を検出する。修正内容閾値(第2の閾値)以上の修正候補文で重複して修正に用いられている形態素を共通修正内容といってもよい。
共通修正内容検出部104は、共通修正箇所検出部103が決定した共通修正箇所に対して行なわれる修正内容のうち、修正内容閾値以上の数の修正候補文で共通して行なわれる修正を共通修正内容と決定する。
共通修正内容は、候補文生成部101が生成した複数の修正候補文のうち、入力文に対する正解確率が上位のものから順に選択された複数の修正候補文において多く(修正内容閾値以上の)同じ修正を行なう形態素を表す。
共通修正内容検出部104は、共通修正箇所検出部103が決定した共通修正箇所に対して、候補文生成部101が生成した複数の修正候補文のうち、入力文に対する正解確率が上位のものから順に選択された複数の修正候補文において多く(修正内容閾値以上の)同じ修正を行なう共通修正内容を特定する。
修正内容閾値には任意の値を設定してもよく、例えば、利用者が修正内容閾値として任意の値を設定してもよい。
共通修正内容検出部104は、差分検出部102が生成した入力形態素群と各修正候補形態素群との差分の集計結果に基づいて、共通修正内容を決定する。共通修正内容は複数であってもよい。
図5は実施形態の一例としての情報処理装置1の共通修正内容検出部104による共通修正内容の決定方法を説明するための図である。
図5において、符号Kは、差分検出部102が生成した入力形態素群と各修正候補形態素群との差分の集計結果のうち、共通修正箇所検出部103が決定した共通修正箇所を抽出したものを示す。
共通修正内容検出部104は、共通修正箇所に対応する修正後形態重複数が修正内容閾値以上の修正後形態素を共通修正内容と決定する。
この図5に示す例においては、入力形態素群における入力形態素“勤め”に対応する修正後形態素“務”の修正後形態素重複数が13であり(符号L1参照)、入力形態素群における入力形態素“た”に対応する修正後形態素“めた”の修正後形態素重複数が14である(符号L2参照)。
修正内容閾値が8である場合に、共通修正内容検出部104は、修正後形態素重複数が8以上である修正後形態素 “務”,“めた”の2つを、それぞれ共通修正内容と決定する。
多くの修正候補文において同じ修正が行なわれた修正後形態素の内容は、修正内容として正しい可能性が高いとみなすことができる。共通修正内容検出部104は、修正後形態素重複数が修正内容閾値以上の修正後形態素を修正内容として好適な形態素とみなして共通修正内容と決定する。
共通修正内容検出部104は、決定した共通修正内容を表す情報をメモリ12や記憶装置13等の所定の記憶領域に記憶させる。
出力文抽出部105は、修正候補文抽出部100に入力された全ての修正候補文の中から、共通修正内容検出部104が決定した共通修正内容を全て含む修正候補文を選択し、利用者に提示する。以下、複数の修正候補文の中から利用者に提示するために抽出される修正候補文を出力文といってもよい。出力文抽出部105は、共通修正内容検出部104が決定した共通修正内容に基づいて、複数の修正候補文の中から出力文を選択(抽出)する。
図6は実施形態の一例としての情報処理装置1における出力文抽出部105の処理を説明するための図である。
図6において、符号Mは、出力文抽出部105が複数の修正候補文の中から出力文を選択する過程を示す。
図6に示す例においては、図5に例示した如く、共通修正内容検出部104が修正後形態素 “務”,“めた”の2つを、それぞれ共通修正内容と決定した場合の出力文の選択過程を示す。
出力文抽出部105は、共通修正内容検出部104が共通修正内容と決定した修正後形態素 “務”,“めた”の両方を、これらの修正後形態素の位置(共通修正箇所)に有する修正候補文を複数の修正候補文の中から出力文として選択する。
図6の符号Mに示す15個の修正候補文においては、一番上に示す修正候補文「チャーリー高山としてトーク番組の司会も務めた。」のみが修正後形態素 “務”,“めた”の両方を含む。
従って、出力文抽出部105は、この修正候補文「チャーリー高山としてトーク番組の司会も務めた。」のみを出力文として選択し(符号O参照)、他の14個の修正候補文は出力文から除外する。
出力文抽出部105は、選択した修正候補文(出力文)「チャーリー高山としてトーク番組の司会も務めた。」を利用者に提示する。
出力文抽出部105は、修正候補文(第1の複数の文)のうち、変更位置に対する共通する変更内容を含む第2の複数の文が所定の基準を満たす場合、第2の複数の文のうちの基準に対応する出力文を出力する。
ここで基準とは、修正候補文において、共通修正箇所検出部103が特定した共通修正箇所に、共通修正内容検出部104が特定した共通修正内容が行なわれていることであり、出力文抽出部105は、この基準を満たす修正候補文を出力文として出力する。
出力文抽出部105は、複数の修正候補文(第1の複数の文)のうちの修正箇所閾値(第1の閾値)以上の数の修正候補文が共通して変更を行なう入力文における変更位置に対して、複数の修正候補文のうちの修正内容閾値(第2の閾値)以上の数の第2の複数の文がそれぞれ同一の変更内容(共通修正内容)の変更を行なう場合に、かかる変更内容(共通修正内容)を全て含む修正候補文を出力文として出力する。
出力文抽出部105は、例えば、選択した出力文を、本情報処理装置1に備えられたモニタ14a(図8参照)に表示させることで利用者に提示する。なお、出力文の利用者への提示方法は、モニタ14aへの表示に限定されるものではない。
例えば、出力文抽出部105は、本情報処理装置1とネットワーク等を介して接続される他の情報処理装置(図示省略)のモニタ等に出力文を表示させてもよく、適宜変更して実施することができる。
(B)動作
上述の如く構成された実施形態の一例としての情報処理装置1における処理を、図7に示すフローチャート(ステップS1~S5)に従って説明する。
上述の如く構成された実施形態の一例としての情報処理装置1における処理を、図7に示すフローチャート(ステップS1~S5)に従って説明する。
ステップS1において、候補文生成部101が、入力される校正対象の文(入力文)に基づき、複数の修正候補文を生成する。
ステップS2において、差分検出部102が、入力文に対して形態素解析を行なうことで、入力文を形態素単位(入力形態素群)に分割する。また、差分検出部102は、複数の修正候補文に対してそれぞれ形態素解析を行なうことで、各修正候補文をそれぞれ形態素単位(修正候補形態素群)に分割する。
差分検出部102は、入力形態素群と複数の修正候補形態素群のそれぞれを比較して各差分を検出し、検出した差分を集計する。
ステップS3において、共通修正箇所検出部103が、入力形態素群において、修正箇所閾値(第1の閾値)以上の修正候補文で修正が行なわれている形態素(共通修正箇所)を検出する。
ステップS4において、共通修正内容検出部104が、共通修正箇所検出部103が決定した共通修正箇所に対応する修正候補形態素のうち、修正内容閾値(第2の閾値)以上の修正候補文で重複して修正に用いられている形態素(共通修正内容)を検出する。
ステップS5において、出力文抽出部105が、候補文生成部101が生成した全ての修正候補文の中から、共通修正内容検出部104が決定した共通修正内容を全て含む修正候補文を選択し、利用者に提示する。その後、処理を終了する。
(C)効果
実施形態の一例としての情報処理装置1によれば、差分検出部102が、入力文を複数の入力形態素(入力形態素群)に分割し、また、複数の修正候補文をそれぞれ複数の修正候補形態素(修正候補形態素群)に分割する。そして、差分検出部102は、これらの入力形態素群と各修正候補形態素群とを比較して差分を集計する。
実施形態の一例としての情報処理装置1によれば、差分検出部102が、入力文を複数の入力形態素(入力形態素群)に分割し、また、複数の修正候補文をそれぞれ複数の修正候補形態素(修正候補形態素群)に分割する。そして、差分検出部102は、これらの入力形態素群と各修正候補形態素群とを比較して差分を集計する。
入力文および修正候補文を形態素単位で分割して比較を行なうことで、入力文と修正候補文との比較を効率的に行なうことができる。
共通修正箇所検出部103が、候補文生成部101が生成した複数の修正候補文のうち、入力文に対する正解確率が上位のものから順に選択された複数の修正候補文において多く(修正箇所閾値以上の)修正が行なわれている共通修正箇所を決定する。共通修正箇所検出部103は、複数の修正候補文における修正候補の出現頻度に応じて、入力文における修正が行なわれている共通修正箇所を決定する。
共通修正箇所検出部103が、入力文における、正解率が上位の複数(修正箇所閾値以上)の修正候補文において共通して修正される入力形態素を決定することで、入力文における修正すべき入力形態素を容易に特定することができ効率的である。
また、共通修正内容検出部104が、共通修正箇所検出部103が決定した共通修正箇所に対して、候補文生成部101が生成した複数の修正候補文のうち、入力文に対する正解確率が上位のものから順に選択された複数の修正候補文において多く(修正内容閾値以上の)同じ修正を行なう共通修正内容を決定する。
共通修正内容検出部104は、複数の修正候補文における修正候補の出現頻度に応じて、入力文における共通修正箇所に対して行なう共通修正内容を決定する。
共通修正内容検出部104が、共通特定箇所に対応する修正候補形態素に関して、複数の修正候補文における、正解率が上位の複数(修正内容閾値以上)の修正候補文が共通して修正に用いる修正候補形態素を決定することで、入力文の修正に用いるべき修正候補形態素(共通修正内容)を容易に特定することができ効率的である。
出力文抽出部105が全ての修正候補文の中から、共通修正内容検出部104が決定した共通修正内容を全て含む修正候補文を選択し、出力文として利用者に提示する。
これにより、複数の修正候補文の中から、入力文の修正に用いるべき修正候補形態素(共通修正内容)を含む出力文を容易に選択することができ効率的である。また、このように出力された出力文は、修正箇所閾値以上の複数の修正候補文において修正対象とされる入力形態素(共通特定箇所)に対して、修正内容閾値以上の複数の修正候補文において修正に用いられる修正候補形態素による修正が行なわれたものである。従って、出力文抽出部105は、入力文に対して正解確率が高い出力文を生成することができ、入力文の校正精度を向上させることができる。入力文を適切に修正する修正候補文を利用者に提示することができる。従って、入力文を校正した出力文を利用者に対して効率的に提示できる。
出力文抽出部105は、確率順に取得した複数の修正候補文の中から、修正後の内容の出現頻度に応じて、適当だと思われる修正候補文を抽出し、もっともらしい修正候補文のみを利用者に提示する。これにより、利用者の求める修正候補文を提示しつつ、利用者にかかる負担を削減することができる。
出力文抽出部105が利用者に提示する出力文は、入力文に含まれる誤りに対して、誤っている個所を修正後の内容に置き換えられている。これにより、利用者が自身で修正等の作業を行なうための負担を軽減できる。
さらに、出力文抽出部105が、複数の修正候補文における形態素の出現頻度に応じて修正候補文を抽出するため、適当でない修正内容を含む修正候補文を取り除くことができる。これにより、利用者が修正候補文を選択する作業負荷を軽減することができる。
(D)その他
図8は実施形態の一例としての情報処理装置1のハードウェア構成を例示する図である。
図8は実施形態の一例としての情報処理装置1のハードウェア構成を例示する図である。
情報処理装置1は、コンピュータであって、例えば、プロセッサ11,メモリ12,記憶装置13,グラフィック処理装置14,入力インタフェース15,光学ドライブ装置16,機器接続インタフェース17およびネットワークインタフェース18を構成要素として有する。これらの構成要素11~18は、バス19を介して相互に通信可能に構成される。
プロセッサ(制御部)11は、情報処理装置1全体を制御する。プロセッサ11は、マルチプロセッサであってもよい。プロセッサ11は、例えばCPU,MPU(Micro Processing Unit),DSP(Digital Signal Processor),ASIC(Application Specific Integrated Circuit),PLD(Programmable Logic Device),FPGA(Field Programmable Gate Array),GPU(Graphics Processing Unit)のいずれか一つであってもよい。また、プロセッサ11は、CPU,MPU,DSP,ASIC,PLD,FPGA,GPUのうちの2種類以上の要素の組み合わせであってもよい。
そして、プロセッサ11が情報処理装置1用の制御プログラム(校正支援プログラム,:図示省略)を実行することにより、図1に例示した、候補文生成部101および修正候補文抽出部100(差分検出部102,共通修正箇所検出部103,共通修正内容検出部104および出力文抽出部105)としての機能が実現される。
なお、情報処理装置1は、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラム(校正支援プログラム,OSプログラム)を実行することにより、候補文生成部101および修正候補文抽出部100としての機能を実現する。
情報処理装置1に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、情報処理装置1に実行させるプログラムを記憶装置13に格納しておくことができる。プロセッサ11は、記憶装置13内のプログラムの少なくとも一部をメモリ12にロードし、ロードしたプログラムを実行する。
また、情報処理装置1(プロセッサ11)に実行させるプログラムを、光ディスク16a,メモリ装置17a,メモリカード17c等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ11からの制御により、記憶装置13にインストールされた後、実行可能になる。また、プロセッサ11が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
メモリ12は、ROM(Read Only Memory)およびRAM(Random Access Memory)を含む記憶メモリである。メモリ12のRAMは情報処理装置1の主記憶装置として使用される。RAMには、プロセッサ11に実行させるプログラムの少なくとも一部が一時的に格納される。また、メモリ12には、プロセッサ11による処理に必要な各種データが格納される。
記憶装置13は、ハードディスクドライブ(Hard Disk Drive:HDD)、SSD(Solid State Drive)、ストレージクラスメモリ(Storage Class Memory:SCM)等の記憶装置であって、種々のデータを格納するものである。記憶装置13は、情報処理装置1の補助記憶装置として使用される。
記憶装置13には、OSプログラム,制御プログラムおよび各種データが格納される。制御プログラムには校正支援プログラムが含まれる。
なお、補助記憶装置としては、SCMやフラッシュメモリ等の半導体記憶装置を使用することもできる。また、複数の記憶装置13を用いてRAID(Redundant Arrays of Inexpensive Disks)を構成してもよい。
記憶装置13には、候補文生成部101が生成した修正候補文や、差分検出部102が生成した入力形態素,各修正候補形態素および差分の情報,共通修正箇所検出部103が決定した共通修正箇所を示す情報,共通修正内容検出部104が決定した共通修正内容を表す情報を格納してもよい。
グラフィック処理装置14には、モニタ14aが接続されている。グラフィック処理装置14は、プロセッサ11からの命令に従って、画像をモニタ14aの画面に表示させる。モニタ14aとしては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置等が挙げられる。
入力インタフェース15には、キーボード15aおよびマウス15bが接続されている。入力インタフェース15は、キーボード15aやマウス15bから送られてくる信号をプロセッサ11に送信する。なお、マウス15bは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル,タブレット,タッチパッド,トラックボール等が挙げられる。
光学ドライブ装置16は、レーザ光等を利用して、光ディスク16aに記録されたデータの読み取りを行なう。光ディスク16aは、光の反射によって読み取り可能にデータを記録された可搬型の非一時的な記録媒体である。光ディスク16aには、DVD(Digital Versatile Disc),DVD-RAM,CD-ROM(Compact Disc Read Only Memory),CD-R(Recordable)/RW(ReWritable)等が挙げられる。
機器接続インタフェース17は、情報処理装置1に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース17には、メモリ装置17aやメモリリーダライタ17bを接続することができる。メモリ装置17aは、機器接続インタフェース17との通信機能を搭載した非一時的な記録媒体、例えばUSB(Universal Serial Bus)メモリである。メモリリーダライタ17bは、メモリカード17cへのデータの書き込み、またはメモリカード17cからのデータの読み出しを行なう。メモリカード17cは、カード型の非一時的な記録媒体である。
ネットワークインタフェース18は、ネットワークに接続される。ネットワークインタフェース18は、ネットワークを介してデータの送受信を行なう。ネットワークには他の情報処理装置や通信機器等が接続されてもよい。
そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
例えば、上述した実施形態においては、情報処理装置1が候補文生成部101としての機能を備えているが、これに限定されるものではない。
本情報処理装置1とネットワークを介して接続された他の情報処理装置が候補文生成部101としての機能を備え、この他の情報処理装置において候補文生成部101が生成した修正候補文を受信し、処理してもよい。
上述した実施形態においては、差分検出部102が、入力文と修正候補文とをそれぞれ形態素ごとに分割しているが、これに限定されるものではない。例えば、差分検出部102は、入力文と修正候補文とをそれぞれ単語ごとに分割してもよく、適宜変更して実施することができる。
また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。
(E)付記
以上の実施形態に関し、さらに以下の付記を開示する。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理をプロセッサに実行させることを特徴とする校正支援プログラム。
入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理をプロセッサに実行させることを特徴とする校正支援プログラム。
(付記2)
前記基準が、
前記第1の複数の文のうちの第1の閾値以上の数の文が共通して変更を行なう前記第1の文における変更位置に、前記第1の複数の文のうちの第2の閾値以上の数の第2の複数の文がそれぞれ同一の前記変更内容の変更を行なうことを含む
ことを特徴とする付記1に記載の校正支援プログラム。
前記基準が、
前記第1の複数の文のうちの第1の閾値以上の数の文が共通して変更を行なう前記第1の文における変更位置に、前記第1の複数の文のうちの第2の閾値以上の数の第2の複数の文がそれぞれ同一の前記変更内容の変更を行なうことを含む
ことを特徴とする付記1に記載の校正支援プログラム。
(付記3)
前記基準に対応する文を出力する処理が、
第1の複数の文のうち、前記変更内容を含む文を出力する処理を含む
ことを特徴とする付記2に記載の校正支援プログラム。
前記基準に対応する文を出力する処理が、
第1の複数の文のうち、前記変更内容を含む文を出力する処理を含む
ことを特徴とする付記2に記載の校正支援プログラム。
(付記4)
前記第1の文と前記第1の複数の文とを比較する処理が、
前記第1の文を形態素単位に分割した第1の形態素群と、前記第1の複数の文のそれぞれを形態素単位に分割した第2の形態素群とを比較する処理を含む
ことを特徴とする付記1~3のいずれか1項に記載の校正支援プログラム。
前記第1の文と前記第1の複数の文とを比較する処理が、
前記第1の文を形態素単位に分割した第1の形態素群と、前記第1の複数の文のそれぞれを形態素単位に分割した第2の形態素群とを比較する処理を含む
ことを特徴とする付記1~3のいずれか1項に記載の校正支援プログラム。
(付記5)
入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理をプロセッサが実行することを特徴とする校正支援方法。
入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理をプロセッサが実行することを特徴とする校正支援方法。
(付記6)
前記基準が、
前記第1の複数の文のうちの第1の閾値以上の数の文が共通して変更を行なう前記第1の文における変更位置に、前記第1の複数の文のうちの第2の閾値以上の数の第2の複数の文がそれぞれ同一の前記変更内容の変更を行なうことを含む
ことを特徴とする付記5に記載の校正支援方法。
前記基準が、
前記第1の複数の文のうちの第1の閾値以上の数の文が共通して変更を行なう前記第1の文における変更位置に、前記第1の複数の文のうちの第2の閾値以上の数の第2の複数の文がそれぞれ同一の前記変更内容の変更を行なうことを含む
ことを特徴とする付記5に記載の校正支援方法。
(付記7)
前記基準に対応する文を出力する処理が、
第1の複数の文のうち、前記変更内容を含む文を出力する処理を含む
ことを特徴とする付記6に記載の校正支援方法。
前記基準に対応する文を出力する処理が、
第1の複数の文のうち、前記変更内容を含む文を出力する処理を含む
ことを特徴とする付記6に記載の校正支援方法。
(付記8)
前記第1の文と前記第1の複数の文とを比較する処理が、
前記第1の文を形態素単位に分割した第1の形態素群と、前記第1の複数の文のそれぞれを形態素単位に分割した第2の形態素群とを比較する処理を含む
ことを特徴とする付記5~7のいずれか1項に記載の校正支援方法。
前記第1の文と前記第1の複数の文とを比較する処理が、
前記第1の文を形態素単位に分割した第1の形態素群と、前記第1の複数の文のそれぞれを形態素単位に分割した第2の形態素群とを比較する処理を含む
ことを特徴とする付記5~7のいずれか1項に記載の校正支援方法。
(付記9)
入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理を実行する制御部を含むことを特徴とする情報処理装置。
入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理を実行する制御部を含むことを特徴とする情報処理装置。
(付記10)
前記基準が、
前記第1の複数の文のうちの第1の閾値以上の数の文が共通して変更を行なう前記第1の文における変更位置に、前記第1の複数の文のうちの第2の閾値以上の数の第2の複数の文がそれぞれ同一の前記変更内容の変更を行なうことを含む
ことを特徴とする、付記9に記載の情報処理装置。
前記基準が、
前記第1の複数の文のうちの第1の閾値以上の数の文が共通して変更を行なう前記第1の文における変更位置に、前記第1の複数の文のうちの第2の閾値以上の数の第2の複数の文がそれぞれ同一の前記変更内容の変更を行なうことを含む
ことを特徴とする、付記9に記載の情報処理装置。
(付記11)
前記基準に対応する文を出力する処理が、
第1の複数の文のうち、前記変更内容を含む文を出力する処理を含む
ことを特徴とする付記10に記載の情報処理装置。
前記基準に対応する文を出力する処理が、
第1の複数の文のうち、前記変更内容を含む文を出力する処理を含む
ことを特徴とする付記10に記載の情報処理装置。
(付記12)
前記第1の文と前記第1の複数の文とを比較する処理が、
前記第1の文を形態素単位に分割した第1の形態素群と、前記第1の複数の文のそれぞれを形態素単位に分割した第2の形態素群とを比較する処理を含む
ことを特徴とする、付記9~11のいずれか1項に記載の情報処理装置。
前記第1の文と前記第1の複数の文とを比較する処理が、
前記第1の文を形態素単位に分割した第1の形態素群と、前記第1の複数の文のそれぞれを形態素単位に分割した第2の形態素群とを比較する処理を含む
ことを特徴とする、付記9~11のいずれか1項に記載の情報処理装置。
1 情報処理装置
11 プロセッサ(制御部)
12 メモリ
13 記憶装置
14 グラフィック処理装置
14a モニタ
15 入力インタフェース
15a キーボード
15b マウス
16 光学ドライブ装置
16a 光ディスク
17 機器接続インタフェース
17a メモリ装置
17b メモリリーダライタ
17c メモリカード
18 ネットワークインタフェース
19 バス
100 修正候補文抽出部
101 候補文生成部
102 差分検出部
103 共通修正箇所検出部
104 共通修正内容検出部
105 出力部抽出部
11 プロセッサ(制御部)
12 メモリ
13 記憶装置
14 グラフィック処理装置
14a モニタ
15 入力インタフェース
15a キーボード
15b マウス
16 光学ドライブ装置
16a 光ディスク
17 機器接続インタフェース
17a メモリ装置
17b メモリリーダライタ
17c メモリカード
18 ネットワークインタフェース
19 バス
100 修正候補文抽出部
101 候補文生成部
102 差分検出部
103 共通修正箇所検出部
104 共通修正内容検出部
105 出力部抽出部
Claims (6)
- 入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理をプロセッサに実行させることを特徴とする校正支援プログラム。 - 前記基準が、
前記第1の複数の文のうちの第1の閾値以上の数の文が共通して変更を行なう前記第1の文における変更位置に、前記第1の複数の文のうちの第2の閾値以上の数の第2の複数の文がそれぞれ同一の前記変更内容の変更を行なうことを含む
ことを特徴とする請求項1に記載の校正支援プログラム。 - 前記基準に対応する文を出力する処理が、
第1の複数の文のうち、前記変更内容を含む文を出力する処理を含む
ことを特徴とする請求項2に記載の校正支援プログラム。 - 前記第1の文と前記第1の複数の文とを比較する処理が、
前記第1の文を形態素単位に分割した第1の形態素群と、前記第1の複数の文のそれぞれを形態素単位に分割した第2の形態素群とを比較する処理を含む
ことを特徴とする請求項1~3のいずれか1項に記載の校正支援プログラム。 - 入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理をプロセッサが実行することを特徴とする校正支援方法。 - 入力された第1の文と前記第1の文に基づいて生成された第1の複数の文とを比較し、
前記第1の文と前記第1の複数の文との比較から、前記第1の文における変更位置と前記変更位置に対する変更内容とを特定し、
前記第1の複数の文のうち、前記変更位置に対する共通する前記変更内容を含む第2の複数の文が基準を満たす場合、前記第2の複数の文のうちの前記基準に対応する文を出力する
処理を実行する制御部を含むことを特徴とする情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022038469A JP2023132893A (ja) | 2022-03-11 | 2022-03-11 | 校正支援プログラム,校正支援方法および情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022038469A JP2023132893A (ja) | 2022-03-11 | 2022-03-11 | 校正支援プログラム,校正支援方法および情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023132893A true JP2023132893A (ja) | 2023-09-22 |
Family
ID=88065480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022038469A Pending JP2023132893A (ja) | 2022-03-11 | 2022-03-11 | 校正支援プログラム,校正支援方法および情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023132893A (ja) |
-
2022
- 2022-03-11 JP JP2022038469A patent/JP2023132893A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8959011B2 (en) | Indicating and correcting errors in machine translation systems | |
US10282671B2 (en) | Medical diagnosis support apparatus and method of controlling the same | |
US20170004120A1 (en) | Corrections for natural language processing | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
US10255047B2 (en) | Source code analysis and adjustment system | |
Mowery et al. | Extracting a stroke phenotype risk factor from Veteran Health Administration clinical reports: an information content analysis | |
US20120054231A1 (en) | Quick Font Match | |
US20230075614A1 (en) | Automatically identifying multi-word expressions | |
US8805095B2 (en) | Analysing character strings | |
CN111090641A (zh) | 数据处理方法及装置、电子设备、存储介质 | |
US20230177266A1 (en) | Sentence extracting device and sentence extracting method | |
US20210019371A1 (en) | Cognitive word processing | |
US8996357B2 (en) | Method for generating diagrams, and information processing apparatus for same | |
US20160098473A1 (en) | Grouping method and apparatus | |
CN104123275B (zh) | 翻译验证 | |
US20220004885A1 (en) | Computer system and contribution calculation method | |
JP6695835B2 (ja) | 機械学習を利用したfaq登録支援方法、及びコンピュータシステム | |
JP2023132893A (ja) | 校正支援プログラム,校正支援方法および情報処理装置 | |
WO2019225007A1 (ja) | 入力ミス検知装置、入力ミス検知方法および入力ミス検知プログラム | |
JP2018084952A (ja) | 自動翻訳パターン学習装置、自動翻訳の前処理装置、及びコンピュータプログラム | |
US20220300706A1 (en) | Information processing device and method of machine learning | |
US20210312144A1 (en) | Translation device, translation method, and program | |
US11972208B2 (en) | Information processing device and information processing method | |
JP2002366648A (ja) | レセプト処理システム | |
KR20220058257A (ko) | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 |