JP2013134753A - 誤り文修正装置、誤り文修正方法およびプログラム - Google Patents

誤り文修正装置、誤り文修正方法およびプログラム Download PDF

Info

Publication number
JP2013134753A
JP2013134753A JP2011286889A JP2011286889A JP2013134753A JP 2013134753 A JP2013134753 A JP 2013134753A JP 2011286889 A JP2011286889 A JP 2011286889A JP 2011286889 A JP2011286889 A JP 2011286889A JP 2013134753 A JP2013134753 A JP 2013134753A
Authority
JP
Japan
Prior art keywords
word
correction
sentence
correction candidate
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011286889A
Other languages
English (en)
Other versions
JP5623380B2 (ja
Inventor
Kuniko Saito
邦子 齋藤
Kugatsu Sadamitsu
九月 貞光
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011286889A priority Critical patent/JP5623380B2/ja
Publication of JP2013134753A publication Critical patent/JP2013134753A/ja
Application granted granted Critical
Publication of JP5623380B2 publication Critical patent/JP5623380B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】形態素解析によって得られた単語列データを高精度で修正することのできる誤り文修正装置、誤り文修正方法およびプログラムを得る。
【解決手段】形態素解析処理部12により、修正対象とする文から形態素解析によって単語列データを取得し、修正候補導出処理部14により、取得した単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出し、単語ラティス生成処理部16により、導出した第1修正候補および第2修正候補を用いて単語ラティスを生成し、最尤単語列探索処理部18により、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する。
【選択図】図1

Description

本発明は、誤り文修正装置、誤り文修正方法およびプログラムに係り、特に、文法的に正しい日本語ではなく、誤りが含まれる文を修正する誤り文修正装置、誤り文修正方法およびプログラムに関する。
日本語で記載されたテキストは、英語のように単語の境界が自明ではないため、まず入力文から単語を認識し、その単語の品詞が何であるかを判定する形態素解析処理が基本的かつ重要な言語解析技術の1つとされている。
一方、日本語を母国語としない人が日本語を習得し、メールや書類などで日本語を記述する場合、記載された日本語にはさまざまな文法的な誤りが含まれることがよくある。例えば、「てにをは」などの助詞の選択を誤ったり、形容詞や動詞の用法を誤ったり、さらにはカタカナ語において、耳で聞いた音の記憶から誤った表記に記述し、結果的に日本人とは異なる表記となるもの(濁音、促音、長音などの有無)等である。このような誤りを検出し、正しい記述を提示することは、日本語の習得過程にも有効である。
このような文中の誤りを検出する上で有効な処理の1つが形態素解析である。
形態素解析処理は、入力文である文字列を単語の単位に分割し、品詞などの辞書情報を付与するものである。入力文を長さm字の文字列S=c1c2・・・cmとする。この入力文をn個の表記列(部分文字列)F=f1f2・・・fnに分割し、各表記列に付与される品詞が品詞列T=t1t2・・・tnであった時、形態素解析は、表記列と品詞列の同時確率P(F,T)を最大化するような単語の分割および品詞の付与を実行する。即ち、以下の(1)式を満たすような(F,T)の組を求める問題となる。
その際、別途参照する単語辞書を利用して、入力文中に存在するあらゆる単語候補を検出し、その前後の連接として適切かつ最尤な単語列を最終出力とする。単語辞書には、単語を構成する表記と、その表記に対応する辞書情報が収録されている。辞書情報の代表的なものは品詞であり、例えば「NTT」という表記には「名詞」という品詞が収録される。同じ表記でも複数の品詞が収録されることはよくあり、例えば、「市」には「名詞接尾辞」と「名詞」が収録される場合等である。これらは、「市/名詞接尾辞」、「市/名詞」の2つの異なる単語として認識される。例えば、「横須賀市」という入力文を形態素解析すると「市/名詞接尾辞」と解析され、「市で買った」という入力文では「市/名詞」と解析される。このように単語の多義を解消して1つの最適な単語列を出力するのが形態素解析処理である。以後、本発明では表記と品詞の組み合わせ「表記/品詞」を単語と呼ぶ。
従来、以上のような日本語に対する形態素解析処理に関する技術として、非特許文献1には、確率モデルを用いた形態素解析法である前向きDP後向きAアルゴリズム(forward-DP backward-A*algorithm)に関する技術が開示されている。この技術は、動的計画法(Dynamic Programming)を用いた前向き探索と、Aアルゴリズムを用いた後向き探索の2つのパスから構成された技術である。
「音声言語処理−コーパスに基づくアプローチ−」北研二、中村哲、永田昌明 共著,森北出版株式会社
ところで、日本人が記載する口語調のくだけた文章、例えば、掲示板やブログ、ツイッターなどでよく見られる文章では、略語や造語、母音・促音・長音を多用した口語的表現(すっごーい等)が頻出し、単語辞書に収録されている表記とはずれた表現が文章中に多く存在するために、結果として多くが未知語となって解析誤りの原因となる。
一方、日本語を母国語としない外国人が記載する文章では、1語ずつで見れば単語辞書に収録されている表記ではあるが、全体を通してみると不自然な連接となる現象が多く見られる。例えば、助詞の選択の誤りや、形容詞の独特の使い方などが該当し、「木を立っている」、「早いの時間」のようなものである。これらは、単語単位で見ると、「木/名詞」「を/助詞」「立って/動詞」「いる/助動詞」、「早い/形容詞」「の/助詞」「時間/名詞」と、全て単語辞書で収録される単語であり、一見すると未知語が存在せず、解析が正しくできたように扱われる。
しかし、実際には「木が立っている」、「早い時間」のような文章が自然であり、「早いの時間」と「早い時間」の両者を(1)式で比較すれば、後者がより尤もらしいと判断することは可能である。このように、一見、辞書登録語で構成される文章であっても、単語の選択や連接に誤りが混入している場合、辞書登録語が全く別の単語であることや、そもそも存在してはいけないものであるということを想定した修正処理を実施することが必要となる。
また、カタカナ語の誤りについては、単語辞書の表記とはずれた形で出現し、全体として未知語となる。これは、日本人の書く文章での表記ゆれや造語の出現に近い。
以上のように、特に、日本語を母国語としない人が書いた文に対し、上記非特許文献1等に開示されている従来の形態素解析処理を行った場合、不自然な連接や未知語が発生する場合があり、必ずしも最適な単語列を得ることができるとは限らない、という問題点があった。
なお、以上の問題点は、日本語を母国語としない人が書いた文に限らず、日本語を母国語とする人により、キーボードを用いてブラインド・タッチでコンピュータに入力された文や、幼児等の年少者によって作成された文等でも生じ得る問題点である。
本発明は、上記問題点を解決するためになされたものであり、形態素解析によって得られた単語列データを高精度で修正することのできる誤り文修正装置、誤り文修正方法およびプログラムを提供することを目的とする。
上記目的を達成するために、請求項1に記載の誤り文修正装置は、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出する修正候補導出手段と、前記修正候補導出手段によって導出された第1修正候補および第2修正候補を用いて単語ラティスを生成する単語ラティス生成手段と、前記単語ラティス生成手段によって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成手段と、を備えている。
請求項1に記載の誤り文修正装置によれば、修正候補導出手段により、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補が導出されると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語が第2修正候補として導出される。
そして、本発明では、単語ラティス生成手段により、前記修正候補導出手段によって導出された第1修正候補および第2修正候補を用いて単語ラティスが生成され、修正文生成手段により、前記単語ラティス生成手段によって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文が生成される。
すなわち、本発明では、単語ラティスの生成に用いられる第1修正候補として、形態素解析によって得られた単語列データにおける単語の予め定められた文法上の規則に応じた修正候補を用いており、これによって、不自然な連接を修正することができるようにしている。また、本発明では、単語ラティスの生成に用いられる第2修正候補として、形態素解析によって得られた単語列データにおける単語について、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を用いており、これによって、未知語を修正することができるようにしている。
このように、請求項1に記載の誤り文修正装置によれば、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出し、導出した第1修正候補および第2修正候補を用いて単語ラティスを生成し、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成しているので、形態素解析によって得られた単語列データを高精度で修正することができる。
なお、本発明は、請求項2に記載の発明のように、前記単語列データが、当該単語列データにおける単語の各々毎に当該単語を示す表記および品詞を有し、前記修正候補導出手段が、前記単語列データにおける単語について、前記表記および前記品詞の少なくとも一方に関する前記文法上の規則に応じた修正候補を前記第1修正候補として導出する第1候補導出手段と、前記単語列データにおける単語について、2つの単語それぞれの単語全体の文字数の一致度が予め定められた閾値以上である前記表記とされた単語を第2修正候補として導出する第2候補導出手段と、を有してもよい。これにより、既存の単語列データに含まれる表記および品詞を有効に利用して第1修正候補および第2修正候補を導出することができる。
特に、請求項2に記載の発明は、請求項3に記載の発明のように、前記第1候補導出手段が、前記単語列データにおける単語を別の単語に置き換える置換、前記単語列データにおける単語を消去する削除、および前記単語列データに新しい単語を加える挿入の少なくとも1つを用いて、前記第1修正候補を導出してもよい。これにより、前記置換、前記削除、および前記挿入のうちの適用したものに応じた第1修正候補を得ることができる。
また、請求項2または請求項3に記載の発明は、請求項4に記載の発明のように、前記修正候補導出手段が、前記第2候補導出手段により前記第2修正候補を導出した後、前記第1候補導出手段により、前記単語列データに前記第2修正候補を含めた状態で前記第1修正候補を導出してもよい。これにより、未知語が少なくされた状態で第1修正候補を導出することができる結果、より高精度で形態素解析によって得られた単語列データを修正することができる。
さらに、本発明は、請求項5に記載の発明のように、予め定められた複数種類の単語の各々毎の表記および品詞を含む単語辞書、および正規表現とされた前記文法上の規則を予め記憶した記憶手段をさらに備え、前記修正候補導出手段が、前記記憶手段に記憶された前記単語辞書および前記規則を用いて前記第1修正候補および前記第2修正候補の少なくとも一方を導出してもよい。
一方、上記目的を達成するために、請求項6に記載の誤り文修正方法は、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出する修正候補導出ステップと、前記修正候補導出ステップによって導出された第1修正候補および第2修正候補を用いて単語ラティスを生成する単語ラティス生成ステップと、前記単語ラティス生成ステップによって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成ステップと、を含んでいる。
従って、請求項6に記載の誤り文修正方法によれば、請求項1に記載の発明と同様に作用するので、請求項1に記載の発明と同様に、形態素解析によって得られた単語列データを高精度で修正することができる。
さらに、上記目的を達成するために、請求項7に記載のプログラムは、コンピュータを、請求項1から請求項5の何れか1項に記載の誤り文修正装置の各手段として機能させるためのものである。
従って、請求項7に記載のプログラムによれば、コンピュータを本発明の誤り文修正装置と同様に作用させることができるので、当該誤り文修正装置と同様に、形態素解析によって得られた単語列データを高精度で修正することができる。
本発明によれば、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出し、導出した第1修正候補および第2修正候補を用いて単語ラティスを生成し、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成しているので、形態素解析によって得られた単語列データを高精度で修正することができる、という効果が得られる。
実施の形態に係る誤り文修正装置の機能的な構成を示す機能ブロック図である。 実施の形態に係る誤り文修正装置の電気的な要部構成を示すブロック図である。 実施の形態に係る誤り文修正装置に備えられたHDDの主な記憶内容を示す模式図である。 実施の形態に係る単語辞書データベースの構成を示す模式図である。 実施の形態に係る修正規則データベースの構成を示す模式図である。 実施の形態に係る修正対象文データベースの構成を示す模式図である。 実施の形態に係る修正文データベースの構成を示す模式図である。 実施の形態に係る誤り文修正処理プログラムの処理の流れを示すフローチャートである。 実施の形態に係る修正候補導出処理ルーチン・プログラムの処理の流れを示すフローチャートである。 実施の形態に係る誤り文修正処理の説明に供する図であり、形態素解析の結果の例を示す模式図である。 実施の形態に係る誤り文修正処理の説明に供する図であり、候補導出処理部14aによる処理結果の例を示す模式図である。 実施の形態に係る誤り文修正処理の説明に供する図であり、候補導出処理部14bによる処理結果の例を示す模式図である。 実施の形態に係る誤り文修正処理の説明に供する図であり、近似文字列照合を先に実行した場合の規則1により追加で発生する修正候補の一例を示す模式図である。 実施の形態に係る誤り文修正処理の説明に供する図であり、単語ラティス生成処理によって生成された単語ラティスの一例を示す模式図である。 実施の形態に係る誤り文修正処理の説明に供する図であり、単語ラティス生成処理によって生成された単語ラティスの他の例を示す模式図である。 実施の形態に係る誤り文修正処理の説明に供する図であり、最尤単語列探索処理によって得られた修正文の例を示す模式図である。 実施の形態に係る誤り文修正処理の説明に供する図であり、最尤単語列探索処理によって得られた修正文の表示状態の一例を示す模式図である。
以下、図面を参照して、本発明を実施するための形態について詳細に説明する。なお、ここでは、本発明を、入力された文の誤りを修正する誤り文修正処理を実行する機能(以下、「誤り文修正機能」という。)を有する、単体構成とされた誤り文修正装置に適用した場合について説明する。
まず、本実施の形態に係る誤り文修正機能により実行される誤り文修正処理について説明する。
前述した通り、誤りを訂正する際、誤りの種類によって、着目すべき言語特徴が大きく異なる問題を同時に扱うために、この誤り修正の問題を機械翻訳や音声認識と同じく、雑音のある通信路モデル(Noisy Channel Model)により、誤りを含む観測文字列から正しい系列に復元する問題として定式化することを考える。これは、例えば、今、修正前の単語列Oとして「バタンが押す」があるときに、修正後の単語列W「ボタンを押す」を推測するものであり、次の(2)式で示される。
この定式化により、様々な種類の誤り修正に対応する部分を誤りモデルP(O|W)で扱い、修正後の言語的な尤もらしさを言語モデルP(W)で扱うことができる。この定式化には利点が2つあり、1つは、誤りモデルと言語モデルを分離することで、両者のモデルは独立に設計、改善が可能であることである。更にもう1つは、誤りモデルについては、どういう言語的性質を持つ誤りを対象とするかに応じて個別にモデルを設計、改善することが可能になることである。誤りモデルP(O|W)の部分に修正対象としたい誤り種別単位で個別にモデル化し、組み込んでいくことで、色々な誤り修正機能を追加していくことができる。例えば、助詞修正機能とカタカナ未知語修正機能を実現するためには、助詞誤りモデルとカタカナ誤りモデルを設計し、両者を組み合わせて修正候補を生成し、修正候補の中から最終的に(2)式を満たす最尤単語列Wを求めればよい。
(2)式を実際に解くために、更に下記のように近似する。なお、言語モデルはバイグラム(bigram)モデルを想定する。修正前単語列、修正後単語列としては、O=o1,・・・on、W=w1,・・・wnとする。ここでは、説明を簡単にするために修正前後の単語数は同じであるとするが、実際には増減が有り得る。
(3)式は修正前単語列のoに対する修正候補がwでありP(o|w)は前述した助詞同士の誤り発生を示すP(が|を)、音が近いカタカナの誤りを示すP(バタン|ボタン)などである。ここで示した例以外にも、例えば同音異義語の単語選択誤りをモデル化し、(2),(3)式の誤りモデルに追加すれば同音異義語誤りの機能が実現できる。以上のように、この定式化により、誤り修正機能の選択や追加などが自由に設計できる。
本実施の形態に係る誤り文修正装置では、辞書登録語で構成される不自然な連接の誤りと、カタカナ未知語による誤りを同時に考慮する誤り修正を次の3点で実現する。
・辞書登録語で構成される誤りは、予め設定する規則により修正候補を導出する。
・カタカナ未知語の誤りは、別途用意する揺らぎ照合により単語辞書にある表記を修正候補として導出する。
・以上の2つの処理を独立に実行し、それぞれの修正候補で単語ラティスを生成した上で、言語モデルに基づく単語連接確率を計算し、最尤単語列を最終出力とする。
ここで、カタカナの揺らぎ照合は既存技術である、任意の近似辞書照合技術を利用することができる。
次に、図1を参照して、本実施の形態に係る誤り文修正装置10の構成について説明する。
同図に示すように、本実施の形態に係る誤り文修正装置10は、形態素解析処理部12、修正候補導出処理部14、単語ラティス生成処理部16、および最尤単語列探索処理部18を備えている。
以下、これらの誤り文修正装置10に備えられた各処理部について説明する。
形態素解析処理部12は、入力した修正対象とする文(以下、「修正対象文」という。)に対して形態素解析処理を実行して単語列データを生成するものであり、従来既知の形態素解析技術を適用することができる。
また、修正候補導出処理部14は、形態素解析処理部12によって生成された単語列データに対し、その修正候補を導出するものである。本実施の形態に係る誤り文修正装置10では、修正候補導出処理部14が、単語辞書登録語を修正するための候補導出処理部14aと、辞書未登録語を修正するための候補導出処理部14bと、の2つの系統で構成されている。候補導出処理部14aは助詞の選択や形容詞の用法などの辞書登録語の修正を想定し、候補導出処理部14bはカタカナ未知語などの誤字の修正を想定している。
以下、本実施の形態に係る候補導出処理部14aおよび候補導出処理部14bについて説明する。
候補導出処理部14aは、形態素解析処理部12による形態素解析では単語単位として正しく解析されたものの修正を行うものである。この修正処理では、正規表現に基づいた規則をあらかじめ準備し、単語単位で修正候補を導出する。ここで、本実施の形態に係る誤り文修正装置10では、修正候補の導出として、形態素解析処理の結果に含まれていた元々の単語列を別の単語列に置き換える「置換」、元々の単語列を消去する「削除」、元々の単語列に新しい単語列を加える「挿入」の3種類の処理を想定している。
例えば、助詞の用法の修正のため、任意の助詞が出現した場合に別の助詞を全て候補として導出する(置換)。また、形容詞の用法の修正のため、形容詞の直後に助詞が出現する場合はその助詞を消去することを指示する(削除)。さらには、任意の数量名詞と名詞の間に「の/助詞」を追加する(挿入)。
本実施の形態に係る候補導出処理部14aでは、全ての規則を順次あてはめながら、マッチした単語列に適宜修正候補を導出する。
一方、候補導出処理部14bは、形態素解析処理部12による形態素解析の結果では辞書未登録語となったものから文字列として近い表記を単語辞書から検索するものである。任意の文字列に対して別途準備する単語辞書(以下、「近似辞書」という。)の全てのエントリの中から近い表記、すなわち近似文字列を照合して出力する技術は様々な既存技術が存在し、検索サービスでのクエリ修正などにも利用されている。本実施の形態では、既存の近似文字列照合技術を利用して辞書未登録語の修正候補を導出する。
なお、ここで適用することのできる近似文字列照合技術として、国際公開第2010/026804号に開示されている技術を例示することができる。
この技術では、予め与えられたキーワードに対して、キーワード毎に、キーワードそのものと、当該キーワードの全ての文字位置から連続する少なくとも1つの文字を削除した文字列の集合とからなる削除キーワードを含むスキップ辞書を作成するスキップ辞書作成部と、スキップ辞書作成部によって作成されたスキップ辞書を記憶・保持するスキップ辞書記憶部と、入力文字列とスキップ辞書記憶部に保持されたスキップ辞書とを照合することにより、入力文字列から予め与えられたキーワードおよび当該キーワードに近似したキーワードを抽出し、その出現位置と共に出力するキーワード抽出部を備えている。
この技術では、以下の方法でN字連続(Nは任意の整数)までの挿入、削除、置換誤りを含む文字列と、大量のキーワードとを高速に照合する。
1.キーワード辞書からトライ辞書を構築する際、各キーワード毎に、キーワードそのものと、当該キーワードの全ての文字位置pkから連続するwk字(1≦wk≦N)を削除した文字列の集合とからなる削除キーワードを生成し、トライ構造を作成する。これをスキップ辞書と呼ぶ。
2.スキップ辞書の値には、各削除キーワード毎に、削除文字位置pk、削除文字数wkおよび当該削除キーワードの元となったキーワード(元キーワード)を保持しておく。
3.入力文字列とスキップ辞書とを照合する際、入力文字列そのものとスキップ辞書との照合だけでなく、当該入力文字列の全ての位置から連続するwi字(1≦wi≦N)スキップした入力文字列(以下、スキップ入力と呼ぶ。)の集合とスキップ辞書との照合も行う。
4.得られた削除キーワードの削除文字位置pk、削除文字数wk、入力文字列のキーワード上での相対スキップ位置pi、スキップ幅wiを比較してその削除キーワードを、次の4種類に分類する。
(1)wi、wkが共に0(wi=wi=0)ならば、キーワードは完全一致としてキーワードを出力する。
(2)wiが0で、wkが1以上(wi=0,wk>0)であれば、入力文字列のスキップ位置にwi字の削除文字が存在するものとしてキーワードを出力する。
(3)wiが1以上で、wkが0(wi>0,wk=0)であれば、入力文字列のスキップ位置にwi字の挿入文字が存在するものとしてキーワードを出力する。
(4)wiが1以上で、piとpkが等しく、wiとwk(wi>0,pi=pk,wi=wk)が等しければ、入力文字列のスキップ位置にwi=wk字の置換文字が存在するものとしてキーワードを出力する。
この技術を、本実施の形態に係る候補導出処理部14bにおける近似文字列照合処理に適用する場合、上記近似辞書として上記スキップ辞書を用いると共に、上記形態素解析の結果では辞書未登録語となったものとして上記入力文字列を用いることになる。
なお、本実施の形態において適用可能な近似文字列照合技術は上記国際公開公報に開示されている技術に限らず、‘「誤字脱字や伏字を許容する近似辞書照合技術」NTT 齋藤、今村、松尾、菊井 言語処理学会 第17回年次大会 p.1143-1146’に開示されている技術や、特開2011−065384号公報に開示されている技術等を例示することができる。
以上のように、本実施の形態に係る誤り文修正装置10では、候補導出処理部14aおよび候補導出処理部14bの2系統にて修正候補を導出する。
なお、それぞれの修正候補に対しては、その誤り確率を示す確率値P(o|w)を同時に指定しておく。確率値はあらかじめ人手で設定してもよいし、近似度や頻度などの統計量に基づく確率値を利用してもよい。もし、大量に実際の作文誤りデータとそれに対応する修正データがあれば、どの単語がどの単語へ誤っているかの頻度により、以下の式で統計的な確率値を推定することが可能である。ここで、C(o,w)は、ある単語wがoに誤っている回数であり、C(w)はw全体の出現回数である。
一方、確率値として上記近似度を適用する場合は、2つの単語それぞれの単語全体の文字数の一致度、即ち、文字数のうちの何割が一致しているかにより算出可能である。例えば、「グラフィク」を「グラフィック」に修正する場合、文字数でカウントした近似度が5/6=0.83であり、未知語よりも辞書登録語であるグラフィックの方が尤もらしいとの前提に立つと、「グラフィック」の確率は0.8、「グラフィク」は0.2と考えることができる。候補導出処理部14bは、未知語、及び単語辞書から検索した文字列であり未知語と近い表記の辞書登録後の全てを修正候補として出力する。候補導出処理部14bは、算出した近似度を予め設定されている閾値と比較し、閾値以上の近似度が算出された未知語、及び単語辞書から検索した文字列であり未知語と近い表記の辞書登録語のみを修正候補として出力してもよい。
ここで、候補導出処理部14aと候補導出処理部14bにおける各処理の実行順番は、候補導出処理部14aおよび候補導出処理部14bの処理を各々独立に実行してもよいし、候補導出処理部14aの処理を実行した後に候補導出処理部14bの処理を実行してもよく、候補導出処理部14bの処理を実行した後に候補導出処理部14aの処理を実行してもよい。
しかしながら、最も修正効果を高くするには、候補導出処理部14bの処理を実行した後に候補導出処理部14aの処理を実行することが望ましい。なぜなら、候補導出処理部14bの処理により、辞書未登録語に辞書登録語である修正候補が作成されるため、その修正候補の存在により候補導出処理部14aの処理が有効になる可能性があるからである。処理順の修正効果については、候補導出処理部14aおよび候補導出処理部14bの処理でどのような事象を想定しているかによって異なるため、その処理順は適宜目的に応じて選択することが好ましい。以後、本実施の形態では、候補導出処理部14b→候補導出処理部14aの順での形態を想定する。
一方、単語ラティス生成処理部16は、形態素解析処理部12による形態素解析処理によって生成された単語列と、修正候補導出処理部14で導出された修正候補を一つの単語ラティスに登録する処理を実行する。その際、修正候補導出処理部14による処理で得られた修正候補の尤もらしさを示す誤り確率値をあわせて登録する。
この確率値は修正候補を通過するパスと対応させた形で登録する。その際、パスには、その修正候補へ到る流入パスと、そこから次の隣接する単語へ進む流出パスの2種類が存在するが、どちらか一方に決めておく。本実施の形態では、流出パスに登録する例で説明を行うが、一貫性のある処理となっていれば、どちらに登録してもよい。
なお、修正候補ではない元々の単語を通過するパスに対しても何かしらの誤り確率値を付与することとし、本実施の形態では修正候補導出処理部14による処理で特に指定されない場合は便宜上1.0であるとみなす。なお、この数値については任意に設定すればよい。
一方、最尤単語列探索処理部18は、単語ラティス生成処理部16において生成された単語ラティスに対して、言語モデルを参照して(1)式を満たす最尤単語列を1つ出力する処理を実行するものである。この最尤単語列が、修正済みの単語列データとなる。
この処理は、各位置に存在する単語候補を利用して最尤単語列を出力することから、形態素解析処理と同等の処理となる。ただし、唯一異なる点は、(1)式の確率値の計算において、単語ラティス生成処理部16でパスに設定された誤り確率値を加味することである。これにより、修正候補導出処理部14による処理で導出される修正候補に応じて、また、元の解析結果に応じて各単語候補自身の尤もらしさを考慮した状態で、最尤となる単語候補を求めることになる。
(1)式を最大化する最尤単語列を求める手法については既に数多くの研究が進んでおり、予め大量の正解データから学習した統計的言語モデルに基づいて(1)式を最大化する手法が成功を収めている。統計的言語モデルの種類としては、隠れマルコフモデルなどの生成モデルや、条件付確率場などの識別モデルなどがある。例えば、単純に単語bigramモデルを利用して(1)式を最大化する場合、次の(5)式のように単語のbigram確率の積でP(F,T)を近似する。
なお、本発明では、表記と品詞の組み合わせ「表記/品詞」を単語と呼んでいる。w/tは分数ではなく、「表記/品詞」である単語を表す。
この場合は、単語のbigram確率を記憶した単語bigramモデルを準備しておき、各位置での左側単語と右側単語のbigram確率を計算しながら動的計画法を用いて文全体で確率が最大となる単語列を求めればよい。その際、左側単語と右側単語のbigram確率の計算と併せて両単語の重みを積算し、実際のbigram確率に重みを付与していけば、重みを考慮した単語bigram確率を算出できる。具体的には、次の(6)式のように表され、該当する単語bigramの計算のときに同時にパスに設定されている誤り確率path_weightを積算する。
このようにして求められるP_weight(F,T)を最大化するパスを動的計画法により求める。
以上は、形態素解析を実現する統計的手法の一例であるが、本処理においては、そのほかに品詞ngram確率を考慮したり、モデルの学習データ不足によるスパースネス問題(Sparseness Problem)を回避するためのモデルの平滑化を取り入れたりする等、既存の統計的手法に基づく形態素解析処理の技術をそのまま利用してよい。ただし、(1)式の同時確率P(F,T)に対して各単語候補の重みを積算した形で最尤単語列候補を求める点のみが変更点である。
図2には、本実施の形態に係る誤り文修正装置10の電気系の要部構成が示されている。
同図に示すように、本実施の形態に係る誤り文修正装置10は、装置全体の動作を司るCPU(中央処理装置)22と、各種データを一時的に記憶するRAM(Random Access Memory)24と、制御プログラムや各種パラメータ等が予め記憶されたROM(Read Only Memory)26と、を備えている。また、本実施の形態に係る誤り文修正装置10は、各種情報を記憶して保持するHDD(Hard Disc Drive)28と、各種情報が入力される際に操作されるキーボード30およびマウス32と、各種情報を表示するディスプレイ34と、を備えている。
CPU22、RAM24、ROM26、HDD28、キーボード30、マウス32、およびディスプレイ34は、システムバスBUSを介して相互に接続されている。従って、CPU22は、RAM24、ROM26、およびHDD28へのアクセス、キーボード30およびマウス32を介した各種情報の入力、およびディスプレイ34による各種情報の表示を行うことができる。
図3には、誤り文修正装置10に備えられたHDD28の主な記憶内容が模式的に示されている。同図に示すように、HDD28には、各種データベースを記憶するためのデータベース領域DBと、アプリケーション・プログラム等を記憶するためのプログラム領域PGと、が設けられている。
なお、本実施の形態に係る誤り文修正装置10においてデータベース領域DBに記憶されるデータベースには、単語辞書データベースDB1、修正規則データベースDB2、修正対象文データベースDB3、および修正文データベースDB4の各データベースが含まれる。以下、これらのデータベースの構成について、図面を参照しつつ詳細に説明する。
図4に示すように、本実施の形態に係る単語辞書データベースDB1は、予め定められた複数種類の単語の各々毎に、表記および辞書情報の各情報が記憶されるように構成されている。
上記「表記」は、対応する単語の表記を示す情報であり、上記「辞書情報」は、「品詞」、「読み方」等の対応する単語に関する情報である。図4に示す例では、「市」の品詞として「名詞接尾辞」、「名詞」等が登録されると共に、「名詞接尾辞」であれば読み方として「シ」等が登録され、「名詞」であれば「イチ」等が登録されていることを示している。
一方、図5に示すように、本実施の形態に係る修正規則データベースDB2は、予め定められた複数種類の規則(本実施の形態では、「置換」、「削除」、「挿入」の3種類の規則)の各々毎に、規則を示す情報が記憶されるように構成されている。
本実施の形態に係る候補導出処理部14aでは、同図に示される規則を用いて、修正前の単語列に対し、修正後(修正候補)を導出する。なお、同図における各規則の末尾の数値は誤り確率であって、対応する修正の尤もらしさを示すものであり、本実施の形態に係る誤り文修正装置10では、0〜1.0の数値で表す。修正前後の単語は表記および品詞について正規表現により記述する。
ここで、同図において、規則1は「置換」であり、「を/助詞」や「は/助詞」といった単語を他の助詞に置換して全て候補とすることを指示するものである。また、規則2は「削除」の例であり、任意の形容詞の直後に助詞が出現する場合は、その助詞を消去することを指示するものである。さらに、規則3は「挿入」の例であり、任意の数量名詞と名詞の間に「の/助詞」を追加することを指示するものである。
それぞれの規則では、修正前と修正後の単語状況を、正規表現を利用して記述する。規則1では、修正前の単語が「を/助詞」や「は/助詞」であるものにマッチしたら、この単語の修正候補として順次指定された助詞を導出する。規則2では、修正前として、任意の表記で品詞が形容詞である単語「*/形容詞」と「の/助詞」が連続する単語列にマッチしたら、1つ目にマッチした(=$1)形容詞だけを残したものを修正候補として導出し、「の/助詞」は削除される。規則3では、表記は任意で、品詞の並びが数量名詞と名詞の連続である単語列にマッチしたら、1つ目にマッチした(=$1)数量名詞と2つ目にマッチした(=$2)名詞の間に「の/助詞」を追加したものを修正候補して導出する。
一方、図6に示すように、本実施の形態に係る修正対象文データベースDB3は、本実施の形態に係る誤り文修正装置10によって修正対象とされている文(修正対象文)の各々毎に、IDおよび修正対象文の各情報が記憶されるように構成されている。
上記「ID」は、対応する修正対象文を特定(識別)するために当該修正対象文の各々毎に異なるものとして予め付与されたID(Identification)情報であり、上記「修正対象文」は、対応する修正対象文のテキスト・データである。図6に示す例では、修正対象文として、IDとして「10001」が付与された「小さいのグラフィクは使用する」等とのテキスト・データが登録されていることを示している。
さらに、図7に示すように、本実施の形態に係る修正文データベースDB4は、本実施の形態に係る誤り文修正装置10による修正によって得られた修正文の各々毎に、IDおよび修正文の各情報が記憶されるように構成されている。
上記「ID」は、上記修正対象文データベースDB3のIDと同一の情報であり、上記「修正文」は、対応するIDに関連付けられて修正対象文データベースDB3に登録されている修正対象文を誤り文修正機能によって修正して得られた修正文のテキスト・データである。図7に示す例では、IDとして「10001」が付与された「小さいのグラフィクは使用する」との修正対象文の修正文として、「小さいグラフィックを使用する」とのテキスト・データが登録されていることを示している。
なお、HDD28のデータベース領域DBには、候補導出処理部14bにより実行される近似文字列を照合する処理で用いられる近似辞書がデータベース化された近似辞書データベースも構築されている。なお。近似辞書データベースは、単語辞書と同じ内容(表記、品詞、読み、等)をもち、単語辞書を近似辞書照合が可能なフォーマットに変換したものである。近似辞書照合が可能なフォーマットとは、単語表記の一部分を欠落させた表記を全展開したものである。
以上のように構成された誤り文修正装置10による誤り文修正機能等を実現するための各種処理は、プログラムを実行することにより、コンピュータを利用してソフトウェア構成により実現してもよい。ただし、ソフトウェア構成による実現に限られるものではなく、ハードウェア構成や、ハードウェア構成とソフトウェア構成の組み合わせによって実現してもよいことは言うまでもない。
以下では、本実施の形態に係る誤り文修正装置10が、上記プログラムを実行することにより各種処理を実現するものとされている場合について説明する。この場合、当該プログラムを誤り文修正装置10のHDD28等の記憶手段に予めインストールしておく形態や、コンピュータ読み取り可能な記録媒体に格納された状態で提供される形態、有線または無線による通信手段を介して配信される形態等を適用してもよい。
次に、図8を参照して、本実施の形態に係る誤り文修正装置10の作用を説明する。なお、図8は、予め定められたタイミング(本実施の形態では、キーボード30を介して実行する旨の指示入力が行われたタイミング)で誤り文修正装置10のCPU22によって実行される誤り文修正処理プログラムの処理の流れを示すフローチャートであり、当該プログラムはHDD28のプログラム領域PGに予め記憶されている。また、ここでは、錯綜を回避するために、単語辞書データベースDB1、修正規則データベースDB2、修正対象文データベースDB3、および近似辞書データベースが予め構築されている場合について説明する。
同図のステップ100では、修正対象文データベースDB3から何れか1つの修正対象文を示すテキスト・データ(以下、「処理対象文」という。)を読み出し、次のステップ102では、読み出した処理対象文に対して、前述した形態素解析処理部12と同様の処理により形態素解析処理を実行する。本ステップ102の処理により、一例として図10に示す単語列データが得られる。
次のステップ104では、修正候補導出処理ルーチン・プログラムを実行する。以下、図9を参照して、本実施の形態に係る修正候補導出処理ルーチン・プログラムについて説明する。なお、図9は、修正候補導出処理ルーチン・プログラムの処理の流れを示すフローチャートであり、当該プログラムもHDD28のプログラム領域PGに予め記憶されている。
同図のステップ150では、上記ステップ102の処理によって得られた単語列データに対して、前述した候補導出処理部14bと同様の処理により修正候補(以下、「第2修正候補」という。)を導出し、次のステップ152では、上記ステップ102の処理によって得られた単語列データに対して、前述した候補導出処理部14aと同様の処理により修正候補(以下、「第1修正候補」という。)を導出する。この際、本ステップ152では、上記単語列データに対して上記ステップ150の処理によって導出された第2修正候補も含めた状態で第1修正候補を導出するようにする。
ここで、図11には、図10に示した単語列データに対して、図5に示した修正規則データベースDB2を用いて上記ステップ152の処理によって得られる第1修正候補の一例が示されている。なお、図11では、修正前の単語列の下線で示した部分に対して規則がマッチし、その部分に対応する修正候補が導出されていることを示している。
一方、図12には、図10に示した単語列データに対して、上記ステップ150の処理により、近似辞書データベースを利用してカタカナの辞書未登録語(品詞がカナ:Undefであるもの)から近似辞書中のエントリと近いものを照合したときの照合結果を修正候補とした場合の一例が示されている。なお、ここでは、「グラフィク」という文字列に対して、近似辞書中の「グラフィック/名詞」が候補として導出されている。なお、このように、本実施の形態では、カタカナ未知語の例を示すが、これに限らず、任意の未知語に対して近似辞書照合を行うことが可能であることは言うまでもない。
ここで、本実施の形態に係る誤り文修正装置10では、候補導出処理部14bによる処理を実行した後に候補導出処理部14aの処理を実行している。これにより、候補導出処理部14bの出力を元に候補導出処理部14aを実行できるため、図11に示した実施例における規則1の結果に対して、図13で示される修正候補が新たに追加される。なお、図13に示す例では、候補導出処理部14bで「グラフィク」の部分の修正候補として「グラフィック/名詞」が発生しているため、この部分で新たな修正候補が追加される。
上記ステップ152の処理が終了すると、修正候補導出処理ルーチン・プログラムを終了して誤り文修正処理プログラム(メイン・ルーチン)のステップ106に移行し、前述した単語ラティス生成処理部16と同様の処理により単語ラティスを生成する。
図14および図15には、上記ステップ104の処理において候補導出処理部14bによる処理の実行後に候補導出処理部14aを実行した場合の、ステップ106の処理によって生成される単語ラティスの状態の一例を示す。なお、同図では、紙面の都合上、品詞情報は省略している。先頭<s>および末尾</s>は、それぞれ文頭、文末を現す擬似的な記号であり、どの入力文に対しても設定されるものである。
図14に示す例の場合、規則2由来の修正候補は誤り確率0.7であり、その流出パスである「の」を削除して次の隣接する単語へ到るパスに0.7が付与される。また、「グラフィク」と「グラフィック」の候補導出処理部14bに基づく誤り確率値は、それぞれの語から次の単語へ到る流出パスに0.2,0.8の値が付与される。また、規則1由来の修正候補の誤り確率値も流出パスに0.1が付与される。同様に、図15に示す例の場合、規則3由来の「の」を挿入して隣接する単語へ流出するパスに誤り確率0.5が、規則1由来の助詞から流出するパスに0.1が、それぞれ付与される。
次のステップ108では、前述した最尤単語列探索処理部18と同様の処理により最尤単語列を探索することにより修正文を生成し、次のステップ110にて、当該修正文を予め定められた形式で出力する。
図16には、上記ステップ110の処理によって出力された修正文の例が示されている。なお、同図に示した例は、形態素解析と同様の形式で出力した場合の例であるが、「表記」だけを取り出して繋げることにより、入力された修正対象文がそれぞれ「小さいグラフィックを使用する」、「2つのメールが届く」に修正されたことがわかる。また、形態素解析と同様の形式で出力して活用することにより、元の修正対象文の形態素解析の結果(単語列データ)と比較することにより、例えば1つ目の修正対象文の場合は、2単語目の「の」が削除された、3単語目の「グラフィク」が「グラフィック」に置換された、4単語目の「は」が「を」に置換された、というように、具体的な修正内容も得ることができる。
なお、本実施の形態に係る誤り文修正装置10では、上記ステップ110における修正文の出力処理として、一例として図17に示すようにディスプレイ34に修正文を表示させる処理と、修正文を修正文データベースDB4に対応する修正文に関連付けた状態で登録する処理を適用している。しかしながら、これらの処理に限らず、修正文を不図示のプリンタ等の画像形成装置によって印刷する処理や、修正文を不図示のスピーカ等の音声再生装置によって発声させる処理等の、単独または複数組み合わせた処理を適用してもよい。
次のステップ112では、処理対象とする全ての修正対象文について上記ステップ100〜ステップ110の処理が終了したか否かを判定し、否定判定となった場合は上記ステップ100に戻る一方、肯定判定となった時点で本誤り文修正処理プログラムを終了する。
以上詳細に説明したように、本実施の形態では、修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出し、導出した第1修正候補および第2修正候補を用いて単語ラティスを生成し、生成した単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成しているので、形態素解析によって得られた単語列データを高精度で修正することができる。
また、本実施の形態では、前記単語列データが、当該単語列データにおける単語の各々毎に当該単語を示す表記および品詞を有し、前記単語列データにおける単語について、前記表記および前記品詞の少なくとも一方に関する前記文法上の規則に応じた修正候補を前記第1修正候補として導出すると共に、前記単語列データにおける単語について、近似度が予め定められた閾値以上になる前記表記とされた単語を第2修正候補として導出しているので、既存の単語列データに含まれる表記および品詞を有効に利用して第1修正候補および第2修正候補を導出することができる。
特に、本実施の形態では、前記単語列データにおける単語を別の単語に置き換える置換、前記単語列データにおける単語を消去する削除、および前記単語列データに新しい単語を加える挿入を用いて、前記第1修正候補を導出して導出しているので、これらに応じた第1修正候補を得ることができる。
さらに、本実施の形態では、前記第2修正候補を導出した後、前記単語列データに前記第2修正候補を含めた状態で前記第1修正候補を導出しているので、未知語が少なくされた状態で第1修正候補を導出することができる結果、より高精度で形態素解析によって得られた単語列データを修正することができる。
また、本実施の形態では、誤り修正をnoisy channel modelで定式化し、誤りモデルと言語モデルを分離することで、両者を独立に設計・改善するシステムが実現できる。更に、誤りモデルにおいて、実現したい誤り文修正機能を自由に選択・追加する全体システムの設計が可能となる。
また、本実施の形態では、誤り文修正機能のうち、単語辞書登録語単位の修正のための候補導出として、正規表現に基づく手法を提案した。この手法では、汎用的な正規表現の枠組みを利用することにより、代表的には助詞の誤りの他、形容詞や動詞の修正も可能となる。更に、「機会」、「機械」のような同音異義語のデータベースを準備すれば、この修正も新しい機能として追加可能である。
また、本実施の形態では、カタカナ未知語のように辞書未登録語の誤りについては、近似辞書照合を利用した修正機能を提案した。
以上のようにして単語辞書登録語の連接の不自然さに基づく誤りと、単語辞書登録語から外れた表記である辞書未登録語に基づく誤りを同時に修正する誤り文修正装置を実現した。これにより、複数の誤り種類に対して平行して修正が可能となる。また、2つの系統に分かれた候補導出処理の処理順序を工夫することにより、より効果的な候補修正も可能となる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施の形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も本発明の技術的範囲に含まれる。
また、上記の実施の形態は、クレーム(請求項)にかかる発明を限定するものではなく、また実施の形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。前述した実施の形態には種々の段階の発明が含まれており、開示される複数の構成要件の組み合わせにより種々の発明が抽出される。実施の形態に示される全構成要件から幾つかの構成要件が削除されても、効果が得られる限りにおいて、この幾つかの構成要件が削除された構成が発明として抽出され得る。
例えば、上記実施の形態では、本発明を、コンピュータを利用してソフトウェア構成により実現した場合について説明したが、本発明はこれに限定されるものではなく、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成の組み合わせによって本発明を実現してもよい。
本発明を、ハードウェア構成を含んで実現する場合の形態としては、図1に示される各構成部位のうち、所望の部位を半導体ICや電気回路等のハードウェアにより構成して適用する形態を例示することができる。
また、上記実施の形態では、単語ラティスを生成するのみで、データベース等に記憶することを行わない場合について説明したが、本発明はこれに限定されるものではなく、例えば、単語ラティスについても記憶する形態としてもよい。
また、上記実施の形態では、修正対象文データベースDB3から修正対象文を入力する場合について説明したが、本発明はこれに限定されるものではなく、例えば、キーボード30、マウス32等の入力装置を介して修正対象文を入力する形態としてもよく、インターネット、ローカル・エリア・ネットワーク等の通信回線を介して修正対象文を入力する形態としてもよい。
また、上記実施の形態では、単語辞書データベースDB1と近似辞書データベースとを個別に用意する場合について説明したが、本発明はこれに限定されるものではなく、近似辞書データベースとして単語辞書データベースDB1を共用して用いる形態としてもよい。
また、上記実施の形態で示した各データベースの構成(図4〜図7参照。)は一例であり、新たな情報を追加したり、不要な情報を削除したり、構造を変更したりすることができることは言うまでもない。
また、上記実施の形態で適用した各演算式((1)式〜(6)式)は一例であり、これらの演算式も適宜変更して用いることができることは言うまでもない。
さらに、上記実施の形態で示した修正文の表示状態(図17参照。)も一例であり、各種表示対象の表示位置を変更したり、表示内容を変更したりすることができることは言うまでもない。
10 誤り文修正装置
12 形態素解析処理部
14 修正候補導出処理部
14a 候補導出処理部
14b 候補導出処理部
16 単語ラティス生成処理部
18 最尤単語列探索処理部
22 CPU
24 RAM
26 ROM
28 HDD
30 キーボード
34 ディスプレイ

Claims (7)

  1. 修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出する修正候補導出手段と、
    前記修正候補導出手段によって導出された第1修正候補および第2修正候補を用いて単語ラティスを生成する単語ラティス生成手段と、
    前記単語ラティス生成手段によって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成手段と、
    を備えた誤り文修正装置。
  2. 前記単語列データは、当該単語列データにおける単語の各々毎に当該単語を示す表記および品詞を有し、
    前記修正候補導出手段は、
    前記単語列データにおける単語について、前記表記および前記品詞の少なくとも一方に関する前記文法上の規則に応じた修正候補を前記第1修正候補として導出する第1候補導出手段と、
    前記単語列データにおける単語について、2つの単語それぞれの単語全体の文字数の一致度が予め定められた閾値以上である前記表記とされた単語を第2修正候補として導出する第2候補導出手段と、
    を有する請求項1記載の誤り文修正装置。
  3. 前記第1候補導出手段は、前記単語列データにおける単語を別の単語に置き換える置換、前記単語列データにおける単語を消去する削除、および前記単語列データに新しい単語を加える挿入の少なくとも1つを用いて、前記第1修正候補を導出する
    請求項2記載の誤り文修正装置。
  4. 前記修正候補導出手段は、前記第2候補導出手段により前記第2修正候補を導出した後、前記第1候補導出手段により、前記単語列データに前記第2修正候補を含めた状態で前記第1修正候補を導出する
    請求項2または請求項3記載の誤り文修正装置。
  5. 予め定められた複数種類の単語の各々毎の表記および品詞を含む単語辞書、および正規表現とされた前記文法上の規則を予め記憶した記憶手段をさらに備え、
    前記修正候補導出手段は、前記記憶手段に記憶された前記単語辞書および前記規則を用いて前記第1修正候補および前記第2修正候補の少なくとも一方を導出する
    請求項1から請求項4の何れか1項記載の誤り文修正装置。
  6. 修正対象とする文から形態素解析によって得られた単語列データにおける単語について、予め定められた文法上の規則に応じた修正候補である第1修正候補を導出すると共に、単語辞書にない単語に対し前記単語辞書から検索した文字列として近い表記の単語を第2修正候補として導出する修正候補導出ステップと、
    前記修正候補導出ステップによって導出された第1修正候補および第2修正候補を用いて単語ラティスを生成する単語ラティス生成ステップと、
    前記単語ラティス生成ステップによって生成された単語ラティスに対して、最尤となる単語列を探索することにより前記修正対象とする文に対する修正文を生成する修正文生成ステップと、
    を含む誤り文修正方法。
  7. コンピュータを、請求項1から請求項5の何れか1項に記載の誤り文修正装置の各手段として機能させるためのプログラム。
JP2011286889A 2011-12-27 2011-12-27 誤り文修正装置、誤り文修正方法およびプログラム Active JP5623380B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011286889A JP5623380B2 (ja) 2011-12-27 2011-12-27 誤り文修正装置、誤り文修正方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286889A JP5623380B2 (ja) 2011-12-27 2011-12-27 誤り文修正装置、誤り文修正方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013134753A true JP2013134753A (ja) 2013-07-08
JP5623380B2 JP5623380B2 (ja) 2014-11-12

Family

ID=48911367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286889A Active JP5623380B2 (ja) 2011-12-27 2011-12-27 誤り文修正装置、誤り文修正方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5623380B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020016939A (ja) * 2018-07-23 2020-01-30 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム
JP2020052818A (ja) * 2018-09-27 2020-04-02 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP2020516994A (ja) * 2017-03-29 2020-06-11 北京捜狗科技▲発▼展有限公司 テキスト編集方法、装置及び電子機器
JP2022169992A (ja) * 2021-04-28 2022-11-10 デロイトトーマツファイナンシャルアドバイザリー合同会社 情報処理装置、情報処理方法、端末プログラム、サーバプログラム及び契約書修正支援システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233619A (ja) * 1992-02-18 1993-09-10 Matsushita Electric Ind Co Ltd 日本語文章誤り訂正方法およびその装置
JP2006294069A (ja) * 1996-04-05 2006-10-26 Fujitsu Ltd 文書校正装置およびプログラム記憶媒体
JP2011154590A (ja) * 2010-01-28 2011-08-11 Fuji Xerox Co Ltd プログラムおよび情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233619A (ja) * 1992-02-18 1993-09-10 Matsushita Electric Ind Co Ltd 日本語文章誤り訂正方法およびその装置
JP2006294069A (ja) * 1996-04-05 2006-10-26 Fujitsu Ltd 文書校正装置およびプログラム記憶媒体
JP2011154590A (ja) * 2010-01-28 2011-08-11 Fuji Xerox Co Ltd プログラムおよび情報処理装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200300885001; 中川優 他1名: '日本語会話処理システムにおける利用者支援方式' 情報処理学会論文誌 Vol.30,No.11, 19891115, 1385-1393頁, 社団法人情報処理学会 Information Processing Socie *
CSNG200501434002; 山本和英 他1名: '「サ変動詞+名詞」の複合名詞への換言' 自然言語処理 第12巻第3号, 20050710, 19-42頁, 言語処理学会 *
JPN6014021227; 山本和英 他1名: '「サ変動詞+名詞」の複合名詞への換言' 自然言語処理 第12巻第3号, 20050710, 19-42頁, 言語処理学会 *
JPN6014021228; 中川優 他1名: '日本語会話処理システムにおける利用者支援方式' 情報処理学会論文誌 Vol.30,No.11, 19891115, 1385-1393頁, 社団法人情報処理学会 Information Processing Socie *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020516994A (ja) * 2017-03-29 2020-06-11 北京捜狗科技▲発▼展有限公司 テキスト編集方法、装置及び電子機器
JP2020016939A (ja) * 2018-07-23 2020-01-30 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム
JP7098463B2 (ja) 2018-07-23 2022-07-11 株式会社デンソーアイティーラボラトリ 単語列修正装置、単語列修正方法及びプログラム
JP2020052818A (ja) * 2018-09-27 2020-04-02 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP7192356B2 (ja) 2018-09-27 2022-12-20 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP2022169992A (ja) * 2021-04-28 2022-11-10 デロイトトーマツファイナンシャルアドバイザリー合同会社 情報処理装置、情報処理方法、端末プログラム、サーバプログラム及び契約書修正支援システム

Also Published As

Publication number Publication date
JP5623380B2 (ja) 2014-11-12

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US9575955B2 (en) Method of detecting grammatical error, error detecting apparatus for the method, and computer-readable recording medium storing the method
US20140350913A1 (en) Translation device and method
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
KR20120006489A (ko) 입력 방법 편집기
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP5203324B2 (ja) 誤字脱字対応テキスト解析装置及び方法及びプログラム
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP5630138B2 (ja) 文作成プログラム及び文作成装置
Nabende Applying dynamic Bayesian Networks in transliteration detection and generation
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
L’haire FipsOrtho: A spell checker for learners of French
Hara et al. Exploring difficulties in parsing imperatives and questions
Demir Context tailoring for text normalization
Jose et al. Lexical normalization model for noisy SMS text
El-Kahlout et al. Initial explorations in two-phase Turkish dependency parsing by incorporating constituents

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140924

R150 Certificate of patent or registration of utility model

Ref document number: 5623380

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150