JP7040155B2 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP7040155B2
JP7040155B2 JP2018045751A JP2018045751A JP7040155B2 JP 7040155 B2 JP7040155 B2 JP 7040155B2 JP 2018045751 A JP2018045751 A JP 2018045751A JP 2018045751 A JP2018045751 A JP 2018045751A JP 7040155 B2 JP7040155 B2 JP 7040155B2
Authority
JP
Japan
Prior art keywords
target sentence
vocabulary list
characters
character
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018045751A
Other languages
English (en)
Other versions
JP2019159814A (ja
Inventor
和久 大野
直之 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2018045751A priority Critical patent/JP7040155B2/ja
Publication of JP2019159814A publication Critical patent/JP2019159814A/ja
Application granted granted Critical
Publication of JP7040155B2 publication Critical patent/JP7040155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。
文字の入力ミス、変換ミス、助詞の誤用のような、文章内の誤りを指摘する種々の方法がある。例えば特許文献1では、単語辞書を参照して日本語文書を単語単位で分割し、誤りと推定される部分を種々のルールに従って判定する文書校正装置が開示されている。
特開2006-338682号公報
しかしながら、特許文献1に係る発明は、単語辞書を用いて文書内の単語の意味、用法等を認識することを前提としている。従って、例えば専門書のように、一般的な辞書に含まれない未知語が多い文章の誤りを指摘することが難しい。
一つの側面では、文章内の誤り部分を適切に指摘することができる情報処理装置等を提供することを目的とする。
一つの側面では、情報処理装置は、複数の文書を学習して生成された語彙リストを記憶する記憶部と、対象文を取得する取得部と、前記対象文を、前記語彙リストに登録されている語彙毎に分割する対象文分割部と、前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定する推定部と、推定結果を出力する出力部とを備えることを特徴とする。
一つの側面では、文章内の誤り部分を適切に指摘することができる。
情報処理システムの構成例を示す模式図である。 サーバの構成例を示すブロック図である。 語彙リストのレコードレイアウトの一例を示す説明図である。 サブワード学習処理を説明するための説明図である。 誤り検出処理を説明するための説明図である。 サブワード学習処理の処理手順の一例を示すフローチャートである。 誤り検出処理の処理手順の一例を示すフローチャートである。 実施の形態2に係るサーバの構成例を示すブロック図である。 ユーザDBのレコードレイアウトの一例を示す説明図である。 実施の形態2に係る誤り検出処理の処理手順の一例を示すフローチャートである。 上述した形態のサーバの動作を示す機能ブロック図である。
以下、本発明をその実施の形態を示す図面に基づいて詳述する。
(実施の形態1)
図1は、情報処理システムの構成例を示す模式図である。本実施の形態では、検出対象である文章(対象文)から、ユーザが誤って入力したと推定される誤り部分の候補を検出する情報処理システムについて説明する。情報処理システムは、情報処理装置1及び端末2を含む。各装置は、インターネット等のネットワークNを介して通信接続されている。
情報処理装置1は、種々の情報処理、情報の送受信が可能な情報処理装置であり、例えばサーバ装置、パーソナルコンピュータ等である。本実施の形態で情報処理装置1はサーバ装置であるものとし、以下では簡潔のためサーバ1と読み替える。サーバ1は、ユーザから誤り検出対象の文章を取得し、当該文章の中から、誤りと推定される部分を検出(推定)し、検出結果(推定結果)をユーザに提示する。詳しくは後述するように、サーバ1は、学習用のサンプル文書群から、サブワード(部分語)と呼ばれる単位の語彙を学習する処理を事前に行い、学習したサブワード単位で対象文を分割し、分割後のサブワードの並びから文章内の誤り候補を検出する。
端末2は、各ユーザが使用する情報処理端末であり、例えばパーソナルコンピュータ、多機能端末等である。端末2は、ユーザによる操作に基づいて検出対象文をサーバ1に送信し、誤り候補の検出を要求する。端末2は、誤り候補の検出結果をサーバ1から取得し、該当箇所を色分け表示等によって明示した検出対象文を表示する。
図2は、サーバ1の構成例を示すブロック図である。サーバ1は、制御部11、主記憶部12、通信部13、及び補助記憶部14を備える。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有し、補助記憶部14に記憶されたプログラムPを読み出して実行することにより、サーバ1に係る種々の情報処理、制御処理等を行う。主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等の一時記憶領域であり、制御部11が演算処理を実行するために必要なデータを一時的に記憶する。通信部13は、通信に関する処理を行うための処理回路等を含み、端末2等と情報の送受信を行う。
補助記憶部14は大容量メモリ、ハードディスク等であり、制御部11が処理を実行するために必要なプログラムP、その他のデータを記憶している。また、補助記憶部14は、語彙リスト141を記憶している。語彙リスト141は、学習用のサンプル文書から抽出した複数のサブワードを記憶するデータベースである。
なお、補助記憶部14はサーバ1に接続された外部記憶装置であってもよい。また、サーバ1は複数のコンピュータからなるマルチコンピュータであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
また、本実施の形態においてサーバ1は上記の構成に限られず、例えば可搬型記憶媒体に記憶された情報を読み取る読取部等を含んでもよい。
図3は、語彙リスト141のレコードレイアウトの一例を示す説明図である。語彙リスト141は、語彙列、スコア列を有する。語彙列は、サンプル文書から抽出(分割)したサブワードである語彙(文字又は文字列)を記憶している。スコア列は、サブワードと対応付けて、サンプル文書において各サブワードが出現した頻度を元に計算したスコア(パラメータ)を記憶している。
図4は、サブワード学習処理を説明するための説明図である。サーバ1は、例えば端末2から学習用のサンプル文書を多数取得し、各サンプル文書からサブワードを抽出して語彙リスト141を生成する。図4では、サンプル文書からサブワードを抽出し、語彙リスト141に登録していく過程を図示している。
サブワード(部分語)は、通常の分かち書きとは異なり、文章中に出現する頻度に応じて文章を区分した語彙(文字又は文字列)の単位である。一般的に文章の最小構成単位として用いられる「単語」は、文章中の文字又は文字列を意味、文法等の観点から最小化した単位であるが、サブワードは意味、文法等による単位ではなく、文章中で用いられる頻度に応じて最小化した単位である。サブワードの概念によれば、低頻度の語句(文字列)は、語句を構成する文字や部分文字列といった、語句そのものよりも短い単位でまとめられる。
以下、サンプル文書からサブワードを学習する処理について説明する。本実施の形態でサーバ1は、BPE(Byte Pair Encoding)の手法を用いてサンプル文書からサブワードを抽出する。
サーバ1はまず、サンプル文書を文字単位で分割する。図4の最上段に示す例では、サーバ1は、「腫大したリンパ節を認めない」という文章を、「腫」、「大」、「し」、「た」…の各文字に分割している。
サーバ1は、図4の二段目に示すように、分割した全ての文字をサブワードとして語彙リスト141に登録する。この場合にサーバ1は、サンプル文書における各サブワード(文字)の出現頻度を元にサブワードのスコア(パラメータ)を計算し、計算したスコアを語彙リスト141のスコア列に登録しておく。スコアは、例えば出現頻度を正規化することによって計算される。図4の例では、「腫」よりも「大」の方が文章中で出現する頻度が高いため、「大」のスコアは「腫」のスコア0.01よりも大きい0.05となっている。
なお、正規化する際に用いる重みなどの値は、場合によって適宜変更される。また、以下の説明では出現頻度を正規化したスコア(パラメータ)に基づき一連の処理を行うものとするが、例えばサーバ1は正規化していない出現頻度そのものをスコアとして用いても良く、出現頻度に応じたパラメータに基づいて一連の処理を行うことができれば良い。
次にサーバ1は、サンプル文書において隣り合う文字を連結した二文字の文字列を、当該文字列の出現頻度に応じて語彙リスト141に登録する。具体的には、サーバ1は、文章中で最もスコアが高い二文字を語彙リスト141に登録する。
例えばサーバ1は、文章の先頭から末尾に至るまで二文字ずつ文字列を取り出し、各文字列のスコアを計算していく。図4の例では、サーバ1はまず「腫大」のスコアを計算し、続いて「大し」のスコアを、「した」のスコアを…というように計算を行う。そしてサーバ1は、二文字から成る各文字列のうち、スコアが最も高い文字列を語彙リスト141に登録する。図4の三段目に示す例では、「転移」の文字列のスコアが最も高かったため、サーバ1は「転移」をサブワードとして語彙リスト141に登録する。なお、サーバ1は併せて当該文字列の出現頻度を元に計算したスコアを語彙リスト141に登録する。
続いてサーバ1は、再度サンプル文書を探索し、スコアが最も高い二文字を語彙リスト141に登録する。この場合にサーバ1は、サブワードとして語彙リスト141に登録済みの文字列は一文字とみなし、新たなサブワードを探索する。上記の例では、語彙リスト141に「転移」を登録済みであるため、この「転移」の文字列が一つの文字とみなされる。このように、サーバ1はBPEの手法を用いて、隣り合う文字同士を一つの情報(文字列)に圧縮する。サーバ1は、「転移」に跨る部分についてスコアを計算する場合、「転移」の前に位置する「骨」と「転移」とを連結した「骨転移」と、「転移」の後に位置する「が」と「転移」とを連結した「転移が」とを二文字の文字列とみなし、スコアを計算する。
このように、サーバ1は、語彙リスト141に登録済みの二つのサブワード(文字又は文字列)を連結して新たなサブワード(文字列)を特定し、当該新たなサブワードを出現頻度に応じて語彙リスト141に追加する。図4の四段目に示す例では、一文字のサブワード「骨」と二文字のサブワード「転移」とを連結した文字列「骨転移」のスコアが最も高かったため、サーバ1は、文字列「骨転移」をサブワードとして新たに語彙リスト141に追加する。
以下同様にして、サーバ1は、サンプル文書内で隣り合う二つのサブワード(文字又は文字列)を連結し、二つのサブワードから成る文字列を、その出現頻度に応じて語彙リスト141に登録する処理を順に行っていく。サーバ1は、複数のサンプル文書に対して当該処理を行い、語彙リスト141に登録されたサブワードが予め定められた最大数(例えば8000語)に達するまで処理を繰り返す。これによりサーバ1は、図3で例示した語彙リスト141を生成する。このようにしてサーバ1は、文章内で現れやすい文字列のパターン(サブワード)を学習する。
なお、上記でサーバ1は、文章内で出現頻度に応じたスコアが最も高い文字列を語彙リスト141に登録することとしているが、例えばスコアの閾値を定め、閾値以上のスコアを有する文字列を全てサブワードとして登録するようにしてもよい。つまり、サーバ1は出現頻度に応じてサブワードを登録可能であればよく、出現頻度に係る判定基準は特に限定されない。
図5は、誤り検出処理を説明するための説明図である。図5に基づき、語彙リスト141を用いて、検出対象である対象文から誤り候補を検出する処理について説明する。
例えばサーバ1は、端末2を介してユーザから対象文を取得する。対象文を取得した場合、サーバ1は語彙リスト141を参照して、対象文をサブワード単位に分割する。図5の上段に示す例では、サーバ1は、「骨転移を認めない」という文章を、「骨転移」及び「を認めない」の二つのサブワードに分割している。例えばサーバ1は、語彙リスト141にサブワードと対応付けて格納されているスコアを参照して、対象文全体でのスコアの総和が最大化するように対象文を分割する。例えば上記の文章では、「骨転移」の文字列を「骨」及び「転移」に分割することも考えられるが、「骨」及び「転移」とした場合よりも「骨転移」とした場合にスコアが高いため、サーバ1は、「骨転移」の文字列単位で対象文を分割する。なお、サーバ1は、語彙リスト141に登録されていない未登録語に関しては、一文字ずつ分割する。
なお、上記でサーバ1は、学習時に計算したサブワードのスコアを基準に対象文を分割しているが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、サブワードに係る文字列の長さ(文字数)に応じて分割を行い、出来るだけ長いサブワードによって対象文を分割するようにしてもよい。
サーバ1は、分割したサブワードの並びから、対象文における誤り候補を検出する。具体的には、サーバ1は、対象文において分割された連続する複数のサブワードの文字数のパターン、及び/又は複数のサブワードの文字種のパターンに応じて誤り候補を検出する。
例えばサーバ1は、一文字のサブワードが所定回数連続して出現する部分を、誤り候補として検出する。図5の下段に示す例では、サブワード単位で分割した対象文において、「り」から「つ」までの「りんぱせつ」の部分は、一文字のサブワードが5回連続で出現している。上述の如く、サブワードは文章中の出現頻度に応じてまとめられた語句(文字又は文字列)であり、低頻度の語句ほど少ない文字数にまとめられる。すなわち、一文字のサブワードは出現頻度が低いはずであるため、一文字という短いサブワードが所定回数連続する箇所は、誤って入力された可能性が高い。そこでサーバ1は、当該箇所を誤り候補として検出する。このようにサーバ1は、連続する複数のサブワードの文字数のパターンに応じて、誤り候補を検出する。
また、サーバ1は、連続する複数のサブワードの文字数のパターンだけでなく、複数のサブワードの文字種のパターンに応じて誤り候補を検出してもよい。例えばサーバ1は、平仮名のみ、あるいは片仮名のみのサブワードが連続する箇所を、誤り候補として検出する。図5の例では、「りんぱせつ」の部分は平仮名のみとなっている。サーバ1は、「りんぱせつ」が正しく変換されていない可能性が高いものと判断し、当該部分を誤り候補として検出する。
サーバ1は、検出した誤り候補をユーザに提示(出力)する。例えばサーバ1は、誤り候補に該当する部分を色分け表示した対象文を出力し、ユーザに提示する。なお、図5では図示の便宜上、該当箇所を下線付きの太字で表している。これによりユーザは誤り候補を認識し、対象文を校正することができる。
図6は、サブワード学習処理の処理手順の一例を示すフローチャートである。図6に基づき、サンプル文書からサブワードを学習する学習処理について説明する。
サーバ1の制御部11は、学習用のサンプル文書群を取得する(ステップS11)。制御部11は、取得したサンプル文書を文字単位に分割する(ステップS12)。制御部11は、分割した全ての文字をサブワードとして語彙リスト141に登録する(ステップS13)。
制御部11は、語彙リスト141に登録済みのサブワード(文字又は文字列)のうち、サンプル文書において隣り合う二つのサブワードを連結した文字列の、サンプル文書内での出現頻度に応じたスコア(パラメータ)を算出する(ステップS14)。例えば制御部11は、文章の先頭から末尾に至るまで二つずつサブワードを取り出して一つの文字列とし、各文字列の出現頻度に基づくスコアを順に計算する。
制御部11は、ステップS14で算出したスコアに応じて、二つのサブワードを連結した文字列を新たなサブワードとして語彙リスト141に登録する(ステップS15)。具体的には、制御部11は、ステップS14においてスコアを計算した全ての文字列のうち、スコアが最も高い文字列を語彙リスト141に登録する。この場合に制御部11は、ステップS14で算出された出現頻度を元にしたスコアを併せて語彙リスト141に登録する。
制御部11は、予め定められた最大数のサブワードが語彙リスト141に登録されたか否かを判定する(ステップS16)。最大数のサブワードが登録されていないと判定した場合(S16:NO)、制御部11は処理をステップS14に戻す。最大数のサブワードが登録されたと判定した場合(S16:YES)、制御部11は一連の処理を終了する。
図7は、誤り検出処理の処理手順の一例を示すフローチャートである。図7に基づき、誤りの検出対象の文章である対象文から誤り候補を検出する処理について説明する。
サーバ1の制御部11は、端末2から対象文を取得する(ステップS31)。制御部11は語彙リスト141を参照して、語彙リスト141に格納されているサブワード毎に対象文を分割する(ステップS32)。具体的には、制御部11は、語彙リスト141に格納されている各サブワードのスコアを参照して、各サブワードの出現頻度に係るスコアの総和が対象文全体で最大化するように対象文を分割する。
制御部11は、対象文において複数のサブワードが連続する部分を、その複数のサブワードの文字数及び/又は文字種のパターンに応じて、誤り候補として検出(推定)する(ステップS33)。例えば制御部11は、一文字のサブワードが所定回数以上連続する部分を誤り候補として検出する。また、例えば制御部11は、平仮名のみ、片仮名のみのサブワードが所定回数以上連続する部分を誤り候補として検出する。
制御部11は、誤り候補が検出されたか否かを判定する(ステップS34)。誤り候補が検出されたと判定した場合(S34:YES)、制御部11は、検出された誤り候補をユーザに対して提示(出力)する(ステップS35)。例えば制御部11は、対象文における該当箇所(文字列)を色分け等の方法で明示した対象文を出力する。誤り候補が検出されなかったと判定した場合(S34:NO)、制御部11は対象文をそのままユーザに提示する(ステップS36)。制御部11は一連の処理を終了する。
なお、上記でサーバ1は、一文字のサブワードが連続するか否かに応じて誤り候補を検出しているが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、二文字以下のサブワードが所定回数以上連続する部分を誤り候補として検出してもよい。このように、サーバ1は、一文字の場合だけでなく、所定の文字数以下のサブワードが連続して現れる箇所(パターン)を誤り候補として検出してもよい。
また、上記でサーバ1は、サンプル文書を一文字ずつに分割し、分割した文字同士を連結していくことでサブワードを特定しているが、本実施の形態はこれに限定されるものではない。例えばサーバ1は、サンプル文書を二文字ずつの文字列に分割した後、出現頻度に応じて各文字列を一文字に分割、あるいは文字列同士を連結して、任意の文字数のサブワードを特定するようにしてもよい。また、例えばサーバ1は、単語辞書を用いてサンプル文書を単語単位で分割した後、出現頻度に応じて単語を文字、部分文字等に分割、あるいは単語同士を連結して、任意の文字数のサブワードを特定してもよい。このように、サーバ1はサンプル文書を所定単位の文字又は文字列毎に分割し、分割した文字又は文字列を出現頻度に応じて語彙リスト141に登録可能であればよく、どのようにサンプル文書を分割してサブワードを特定するか、特に限定されない。
以上より、本実施の形態1によれば、意味、文法等のような一般的な基準ではなく、出現頻度に応じて区分されるサブワードによって対象文を分割し、誤り部分を検出(推定)する。これにより、人手で作成された辞書を用いる必要がなく、未知語の多い文章であっても対応することができる。また、文字数のパターン又は文字種を基準とすることによって、意味、文法等が定義されていないサブワードからでも適切に誤り部分を検出することができる。以上より、文章内の誤り部分を適切に指摘することができる。
また、本実施の形態1によれば、BPEの技術を応用してサンプル文書内の文字を文字列単位に圧縮していくことで、適切にサブワードをリスト化することができる。
また、本実施の形態1によれば、学習時に計算した出現頻度を元にしたスコアの総和が最大化するように対象文をサブワード毎に分割することで、低頻度のサブワードが少なくなるように対象文が分割され、誤り部分をより適切に推定することができる。
また、本実施の形態1によれば、一文字のサブワード、すなわち頻度が低い語が連続する箇所を誤り候補として検出することで、より正確に誤りを指摘することができる。
(実施の形態2)
本実施の形態では、サーバ1が文章の属性に応じて複数の語彙リスト141を生成しておき、対象文の属性に応じて異なる語彙リスト141を用いて誤り候補を検出する形態について述べる。なお、実施の形態1と重複する内容については同一の符号を付して説明を省略する。
図8は、実施の形態2に係るサーバ1の構成例を示すブロック図である。本実施の形態においてサーバ1の補助記憶部14は、ユーザDB142を記憶している。ユーザDB142は、各ユーザの情報を記憶したデータベースである。
また、詳細な図示及び説明は省略するが、サーバ1は、文章の属性に応じた複数の語彙リスト141、141、141…を補助記憶部14に記憶している。本実施の形態では、病院等の医療機関で扱われる書類(診断記録等)を扱う場合を想定して、サーバ1は、各医療分野の文章用の語彙リスト141を生成してあるものとする。
図9は、ユーザDB142のレコードレイアウトの一例を示す説明図である。ユーザDB142は、ユーザID列、氏名列、所属列、アカウント列を含む。ユーザID列は、各ユーザを識別するための識別情報を記憶している。氏名列は、ユーザIDと対応付けて、ユーザの氏名を記憶している。所属列は、ユーザIDと対応付けて、各ユーザの所属を記憶している。本実施の形態では、医療機関に従事する職員(医師等)がユーザである場合を想定し、所属列には、各ユーザが所属する病院名、診療科名等が記憶されている。アカウント列は、ユーザIDと対応付けて、端末2からサーバ1にアクセス(ログイン)する際のアカウント情報を記憶している。
上述の如く、本実施の形態では医療機関の文章を取り扱う場合を想定し、サーバ1は、各医療分野、例えば診療科毎の語彙リスト141を生成しておく。例えばサーバ1は、各ユーザから既存の診断記録の電子ファイルを取得し、これをサンプル文書として用いて、診療科毎のサブワードを学習する。このようにしてサーバ1は、文章の記載内容、すなわち文章の属性に応じた複数の語彙リスト141を生成する。
なお、文章の属性は記載内容に基づく分類に限定されず、例えば文章の形式(社内文書であるか、社外文書であるか等)などに応じて分類してもよい。
図10は、実施の形態2に係る誤り検出処理の処理手順の一例を示すフローチャートである。図10に基づき、実施の形態2に係る誤り検出処理について説明する。なお、サーバ1は各属性のサンプル文書を用いてサブワードの学習を行い、各属性の語彙リスト141を生成済みであるものとして説明する。
サーバ1の制御部11は、端末2を介してユーザから対象文を取得する(ステップS201)。制御部11は、取得した対象文の属性を判定し、判定した属性に応じて語彙リスト141を選択する(ステップS202)。例えば制御部11は、ステップS201で端末2と通信を行った場合のユーザのアカウント情報からユーザの所属を判別し、対象文の属性を判定する。また、例えば制御部11は、取得した対象文に対して形態素解析を行い、記載されている語句から文章の属性を判定するようにしてもよい。このように、対象文の属性を判定する方法は特に限定されない。
制御部11は、選択した語彙リスト141を参照して、対象文をサブワード毎に分割する(ステップS203)。そして制御部11は、分割後の対象文から誤り候補を検出し(ステップS204)、処理をステップS34に移行する。
誤り候補をユーザに提示(出力)した後(ステップS35)、制御部11は、誤り候補として提示した文字列が実際に誤りであったか否かをユーザ自身に確認させ、誤りでない場合、当該文字列を語彙リスト141に追加することで、語彙リスト141を更新する処理を行う。具体的には、制御部11は端末2を介して、ステップS35で提示した誤り候補に対し、当該誤り候補が適正であったか否かを示す応答をユーザから受け付ける(ステップS205)。例えば端末2は、誤り候補に該当する部分を色分け等によって表示した対象文に対し、該当部分の記載をそのまま承認するか否かの操作入力を受け付け、サーバ1に応答を送信する。また、例えば端末2は、誤り候補として表示した部分に対する校正の有無に基づき、誤りでなかったか否かを判定してサーバ1に応答を送信してもよい。
制御部11は、誤り候補として提示した部分が適正でない旨の応答を受け付けたか否かを判定する(ステップS206)。適正でない旨の応答を受け付けていないと判定した場合(S206:NO)、制御部11は一連の処理を終了する。適正でない旨の応答を受け付けたと判定した場合(S206:YES)、制御部11は、誤り候補として提示した文字列を語彙リスト141に新たに登録し、語彙リスト141を更新する(ステップS207)。制御部11は一連の処理を終了する。
以上より、本実施の形態2によれば、文章の属性に応じて複数の語彙リスト141を生成しておき、誤り検出時には文章の属性に応じた語彙リスト141を用いて検出を行う。これにより、文章内の誤りをより正確に検出することができる。
また、本実施の形態2によれば、ユーザから誤り候補が適正であったか否かの応答を受け付け、誤りでなかった場合、誤り候補として提示した文字列を新たなサブワードとして語彙リスト141に追加する。これによって語彙リスト141が更新され、さらに精度を向上することができる。
(実施の形態3)
図11は、上述した形態のサーバ1の動作を示す機能ブロック図である。制御部11がプログラムPを実行することにより、サーバ1は以下のように動作する。
記憶部111は、複数の文書を学習して生成された語彙リスト141を記憶する。取得部112は、対象文を取得する。対象文分割部113は、前記対象文を、前記語彙リスト141に登録されている語彙毎に分割する。推定部114は、前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定する。出力部115は、推定結果を出力する。
本実施の形態3は以上の如きであり、その他は実施の形態1及び2と同様であるので、対応する部分には同一の符号を付してその詳細な説明を省略する。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
1 サーバ(情報処理装置)
11 制御部
12 主記憶部
13 通信部
14 補助記憶部
P プログラム
141 語彙リスト
142 ユーザDB

Claims (9)

  1. 複数の文書を学習して生成された語彙リストを記憶する記憶部と、
    対象文を取得する取得部と、
    前記対象文を、前記語彙リストに登録されている語彙毎に分割する対象文分割部と、
    前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定する推定部と、
    推定結果を出力する出力部と
    を備えることを特徴とする情報処理装置。
  2. 前記文書を、所定単位の文字又は文字列毎に分割する文書分割部と、
    前記文書における前記文字又は文字列の出現頻度に応じて、該文字又は文字列を前記語彙リストに登録する登録部と
    を備えることを特徴とする請求項1に記載の情報処理装置。
  3. 前記文書分割部は、前記文書を文字毎に分割し、
    前記登録部は、
    分割した前記文字を前記語彙リストに登録し、
    前記文書において隣り合う二文字の前記文字を連結した文字列を、前記出現頻度に応じて前記語彙リストに登録し、
    前記語彙リストに登録済みの前記文字又は文字列のうち、隣り合う二つの前記文字又は文字列を連結した文字列を、前記出現頻度に応じて前記語彙リストに登録する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記登録部は、前記文字又は文字列と対応付けて、前記出現頻度に応じたパラメータを前記語彙リストに登録し、
    前記対象文分割部は、前記語彙リストを参照して、前記対象文全体において前記文字又は文字列夫々の前記パラメータの総和が最大化するように前記対象文を分割する
    ことを特徴とする請求項2又は3に記載の情報処理装置。
  5. 前記登録部は、前記文書の属性に応じて複数の前記語彙リストを生成し、
    前記対象文分割部は、前記対象文の属性に応じた前記語彙リストを参照して、前記対象文を分割する
    ことを特徴とする請求項2~4のいずれか1項に記載の情報処理装置。
  6. 前記推定部は、前記語彙が連続して出現する回数に応じて、前記誤り部分を推定する
    ことを特徴とする請求項1~5のいずれか1項に記載の情報処理装置。
  7. ユーザから、前記推定結果が適正であったか否かを示す応答を受け付ける受付部と、
    前記推定結果が適正でない旨の応答を受け付けた場合、前記誤り部分に相当する文字列を前記語彙リストに登録する第2登録部と
    を備えることを特徴とする請求項1~6のいずれか1項に記載の情報処理装置。
  8. 対象文を取得し、
    複数の文書を学習して生成された語彙リストを参照して、前記対象文を、前記語彙リストに登録されている語彙毎に分割し、
    前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定し、
    推定結果を出力する
    処理をコンピュータに実行させることを特徴とする情報処理方法。
  9. 対象文を取得し、
    複数の文書を学習して生成された語彙リストを参照して、前記対象文を、前記語彙リストに登録されている語彙毎に分割し、
    前記対象文において分割された連続する複数の前記語彙の文字数及び/又は文字種のパターンに応じて、前記複数の語彙を誤り部分と推定し、
    推定結果を出力する
    処理をコンピュータに実行させることを特徴とするプログラム。
JP2018045751A 2018-03-13 2018-03-13 情報処理装置、情報処理方法及びプログラム Active JP7040155B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018045751A JP7040155B2 (ja) 2018-03-13 2018-03-13 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018045751A JP7040155B2 (ja) 2018-03-13 2018-03-13 情報処理装置、情報処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019159814A JP2019159814A (ja) 2019-09-19
JP7040155B2 true JP7040155B2 (ja) 2022-03-23

Family

ID=67997023

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018045751A Active JP7040155B2 (ja) 2018-03-13 2018-03-13 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP7040155B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021038694A (ja) 2019-09-02 2021-03-11 川崎重工業株式会社 チョークバルブ付きのエアクリーナ
CN111813923B (zh) * 2019-11-29 2024-05-03 北京嘀嘀无限科技发展有限公司 文本摘要方法、电子设备及存储介质
CN115130472B (zh) * 2022-08-31 2023-02-21 北京澜舟科技有限公司 一种基于bpe的子词分割方法、系统及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342321A (ja) 2001-05-17 2002-11-29 Ricoh Co Ltd 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4278011B2 (ja) * 1996-04-05 2009-06-10 富士通株式会社 文書校正装置およびプログラム記憶媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342321A (ja) 2001-05-17 2002-11-29 Ricoh Co Ltd 用語抽出装置と用語抽出方法及びそのプログラムを格納した記憶媒体

Also Published As

Publication number Publication date
JP2019159814A (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
JP4301515B2 (ja) 文章表示方法、情報処理装置、情報処理システム、プログラム
JP4652737B2 (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
US10762293B2 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US7983903B2 (en) Mining bilingual dictionaries from monolingual web pages
US8380488B1 (en) Identifying a property of a document
JP2693780B2 (ja) テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法
US10242296B2 (en) Method and device for realizing chinese character input based on uncertainty information
JP7040155B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20150066474A1 (en) Method and Apparatus for Matching Misspellings Caused by Phonetic Variations
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
CN104239289A (zh) 音节划分方法和音节划分设备
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
CN111046627A (zh) 一种中文文字显示方法及系统
JP2019179470A (ja) 情報処理プログラム、情報処理方法、および情報処理装置
JP6495124B2 (ja) 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN110750984A (zh) 命令行字符串处理方法、终端、装置及可读存储介质
US8977538B2 (en) Constructing and analyzing a word graph
CN114220113A (zh) 一种论文质量检测方法、装置和设备
WO2007041328A1 (en) Detecting segmentation errors in an annotated corpus
CN115934921B (zh) 一种任务式回答的确定方法、装置、电子设备及存储介质
Syarafina et al. Designing a word recommendation application using the Levenshtein Distance algorithm
CN116680419B (zh) 一种多源数据映射关联细粒度不良信息检测方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220221

R150 Certificate of patent or registration of utility model

Ref document number: 7040155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150