JP2010066957A

JP2010066957A - 誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体

Info

Publication number: JP2010066957A
Application number: JP2008231956A
Authority: JP
Inventors: Hirokazu Masataki; 浩和政瀧; Akio Jin; 昭夫神; Satoshi Takahashi; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2008-09-10
Filing date: 2008-09-10
Publication date: 2010-03-25
Anticipated expiration: 2028-09-10
Also published as: JP5069194B2

Abstract

【課題】高い精度で表記のゆらぎや誤りを検出可能とする。
【解決手段】誤り表記検出対象文書１を形態素解析部１１０にて各単語に分解し、第１表記判定部１２０にて各単語について正誤表記対照表３と照合し、当該単語が正誤表記対照表３の正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、更に言語スコア計算部１３０にて、統計的言語モデル４を用いて各表記の言語スコアを計算し、第２表記判定部１４０にて各言語スコアの比較により正しい表記であるか誤った表記であるかを判定して結果を出力する。
【選択図】図１

Description

本発明は、文書中の表記を推敲する技術に関し、具体的には表記のゆらぎ、誤りを正確に統一、修正するための誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体に関する。

法律に関わる文書や議会の議事録など、表記を正確に統一する必要がある文書をパーソナルコンピュータやワードプロセッサなどを用いて作成する際、表記のゆらぎや誤りを自動検出する方法として、従来、以下のような手法が実用化されている。
(1)任意に定めた統一基準による正解表記と誤り表記との組情報を予め持ち、文書から誤り表記が検出された場合に、その組情報に基づき訂正候補を提示する手法。
(2)ルールを作成して外来語や送り仮名などのゆらぎを訂正する手法。例えば、「ター」を「タ」に（ex.「インターフェース」→「インタフェース」）、「込み」を「込」に（ex.「振込み」→「振込」）、訂正するというルールを作成する。
特開平５−２３３６２０号公報

上記の従来手法には次のような問題がある。
(1)表記のみで正解、誤りを判断しているため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合に対応できない。例えば、「今日」という表記がある場合、「キョウ」と読みたい場合には「きょう」が正解表記（つまり「今日」は誤り表記）であり、「コンニチ」と読みたい場合には「今日」が正解表記であると統一基準として定めた時、文書に「今日」という表記が現われた時に「きょう」に訂正すべきか「今日」のままよいかの切り分けができない。

また、正解表記に対する誤り表記は必ずしも一つではないため、誤り候補を予め準備するための準備に手間がかかる。
(2)外来語や送り仮名以外にも表記を統一する必要があり、また統一の規則は単語ごとに異なるため、例えば、必ずしも全ての「ター」を「タ」に訂正すべきであるとは限らず、ルールだけでは限界がある。

本発明の目的は、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合にも、高い精度で表記のゆらぎや誤りを自動検出でき、また、誤りの候補やルールを作成する必要が無い、誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体を提供することにある。

本発明の誤り表記検出装置は、形態素解析部と第１表記判定部と言語スコア計算部と第２表記判定部とを備える。形態素解析部は、誤り表記検出対象文書が入力され、単語単位に分割して単語列を出力する。第１表記判定部は、当該単語列が入力され、当該単語列を構成する各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記（以下、「誤り表記」という）との組がリスト化された正誤表記対照表を参照して、当該単語が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語と当該単語が誤り表記として含まれる組の正解表記（以下、「比較表記」という）とを出力する。言語スコア計算部は、第１表記判定部にて当該単語が正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、当該単語列と当該単語と当該比較表記とが入力され、当該単語列において当該単語の表記を、そのままにした場合の言語スコアと、当該比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する。第２表記判定部は、言語スコア計算部で求めたそれぞれの言語スコアが入力され、当該単語が正しい表記であるか誤った表記であるかの判定結果を出力する。

また、本発明の誤り表記生成装置は、表記同一発音検索部と発音同一表記検索部と同音異義語削除部とを備える。表記同一発音検索部は、それぞれの単語に対して任意に定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表の各正解表記について、それぞれの単語の表記とその読み方として想定される１以上の発音との組がリスト化された表記・発音対照辞書の同じ表記の組に係る発音を検索し、当該正解表記の正しい発音以外の発音を当該正解表記の発音に追記して生成した第１中間リストを出力する。発音同一表記検索部は、第１中間リストが入力され、第１中間リストに含まれる当該正解表記の各発音をキーに、表記・発音対照辞書を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として第１中間リストの当該正解表記に関連付けて追加して生成した第２中間リストを出力する。同音異義語削除部は、第２中間リストが入力され、第２中間リストの当該誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記との組がリスト化された正誤表記対照表を生成して出力する。

本発明の誤り表記検出装置と誤り表記生成装置によれば、表記に加えて発音も検出に用いるため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解である場合にも、高い精度で表記のゆらぎや誤りを自動検出でき、また、誤りの候補やルールを作成する必要が無くなり、文書編集作業の負担を軽減することができる。

〔第１実施形態〕
図１に本発明の誤り表記検出装置１００の機能構成例を、図２にその処理フロー例を示す。誤り表記検出装置１００は、形態素解析部１１０と第１表記判定部１２０と言語スコア計算部１３０と第２表記判定部１４０とから構成され、入力された誤り表記検出対象文書１の各単語それぞれについて正解表記であるか誤り表記であるかを判定し結果を出力する。

形態素解析部１１０は、誤り表記を検出する対象文書である、ｎ個の単語からなる誤り表記検出対象文書１が入力され、文書を単語単位に分割して単語列ｗ_１、ｗ_２、・・・、ｗ_ｎを出力する（Ｓ１）。例えば、図２に示すように「それでは、今日はその問題について」という文書が入力された時、「それでは」「、」「今日」「は」「その」「問題」「について」というように分割した単語列を出力する。

第１表記判定部１２０は、形態素解析部１１０で分割された単語列ｗ_１、ｗ_２、・・・、ｗ_ｎが入力され、それぞれの単語ｗ_ｋ（１≦ｋ≦ｎ）について、正解表記とその正しい発音と当該発音の正解表記以外の表記（誤り表記）との組がリスト化された正誤表記対照表３を参照して、単語ｗ_ｋが正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には正しい表記であると判定し、誤り表記のみに存在する場合には誤った表記であると判定して、それぞれの単語ごとに判定結果を出力する。また、単語ｗ_ｋが正解表記と誤り表記のいずれにも存在する場合には、単語ｗ_ｋと、単語ｗ_ｋが誤り表記として含まれる組の正解表記（比較表記）ｗ_ｋ´とを出力する（Ｓ２）。例えば、「それでは」「、」「今日」「は」「その」「問題」「について」という単語列が入力された場合において、正誤表記対照表３が図２に示すような内容である時、正解表記と誤り表記のいずれにも存在するのは「今日」のみであり、その他の単語はいずれにも存在しないため、「今日」と、「今日」が誤り表記として含まれる組の正解表記（比較表記）である「きょう」とを言語スコア計算部１３０に向けて出力し、それ以外の単語については正しい表記であるとの判定結果を出力する。

なお、ここで参照する正誤表記対照表３は、手作業で作成することも可能であるが、正解表記に対する誤り表記は必ずしも一つではないため、誤り候補を予め準備するための準備に手間がかかる。そのため、正誤表記対照表３を後述する誤り表記生成装置３００により生成することで準備を省力化を図ることで、本発明による誤り表記検出処理をより円滑に行うことが可能となる。

言語スコア計算部１３０は、第１表記判定部１２０にて単語ｗ_ｋが上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、形態素解析部１１０で分割された単語列ｗ_１、ｗ_２、・・・、ｗ_ｎと、単語ｗ_ｋと上記比較表記ｗ_ｋ´とが入力され、当該単語列において単語ｗ_ｋをそのままにした場合の言語スコアＰ_c(S)と、比較表記ｗ_ｋ´に置き換えた場合の言語スコアＰ_e(S)をそれぞれ、統計的言語モデル４を用いて計算して単語ｗ_ｋとともに出力する（Ｓ３）。

Ｐ_c(S)＝Ｐ(ｗ_１,・・・,ｗ_k-2,ｗ_k-1,ｗ_k,ｗ_k+1,ｗ_k+2,・・・,ｗ_ｎ)
Ｐ_e(S)＝Ｐ(ｗ_１,・・・,ｗ_k-2,ｗ_k-1,ｗ_k´,ｗ_k+1,ｗ_k+2,・・・,ｗ_ｎ)
統計的言語モデルとは、与えられた文書に対して、その文書を構成する単語列の生成確率を求めるためのモデルである。統計的言語モデルには連続音声認識などで盛んに使用されているＮ−ｇｒａｍを始めとして、任意の統計的言語モデルを使用できるが、ここではＴｒｉｇｒａｍを使用した場合を例にとって言語スコアの計算方法を説明する。
Ｔｒｉｇｒａｍは、単語列中のある単語ｗ_ｔの出現確率を直前の２単語から予測するモデルでＰ(ｗ_t|ｗ_t-2,ｗ_t-1)として表現される。従って、文書全体の言語スコアは次式により求めることができる。

また、確率の掛け算により値が小さくなるため、各確率の対数の和として次式のように求めてもよい。

もっとも、本発明における言語スコア計算部１３０では、判定する単語ｗ_ｋに関わる箇所の言語スコアのみがわかれば判定可能なため、次式のように積算を省略しても構わない。

統計的言語モデル４（Ｐ(ｗ_t|ｗ_t-2,ｗ_t-1)）は、言語スコア計算部２３０での言語スコアの計算に先立ち、正解表記のみで記された任意の文書１１を用いて、公知の統計的言語モデル生成方法（例えば、参考文献１、２参照）を実行する統計的言語モデル生成装置１２にて事前に生成しておく。

〔参考文献１〕中川聖一著、電子情報通信学会編、「確率モデルによる音声認識」、第１版、株式会社コロナ社、1988年7月、p.113-121
〔参考文献２〕鹿野清宏、外４名編著、情報処理学会編、「音声認識システム」、第１版、株式会社オーム社、2001年5月、p.53-68
統計的言語モデル４の生成に用いる正解表記のみで記された任意の文書１１は、本発明での主な誤り表記検出対象文書である法律に係わる文書や議会の議事録が標準的な用字用語に則るものであることから、そのような既存の文書や議会の議事録を適宜選定してそれをそのまま利用することができる。また、参考文献３に記載された文部省用字用語例や参考文献４の用字用語辞典に記載された標準的な用字用語を正解表記として利用し、これに基づいて任意の文書１１を容易に構成することもできる。特に、議会の議事録が対象である場合は、参考文献５、６を正解表記として利用し、これに基づいて任意の文書１１を構成すればよい。

〔参考文献３〕文化庁編、「公用文の書き表し方の基準（資料集）」、増補２版、第一法規株式会社、2001年5月
〔参考文献４〕ＮＨＫ放送文化研究所編、「ＮＨＫ新用字用語辞典」、第３版、株式会社日本放送出版協会、2004年3月
〔参考文献５〕衆議院事務局記録部、参議院事務局記録部編、「国会会議録用字例」、衆議院事務局記録部、参議院事務局記録部、1975年
〔参考文献６〕日本速記協会編、「改訂標準用字用例辞典」、社団法人日本速記協会、2007年
なお、正解表記のみで記された任意の文書１１のデータ量は多ければ多いに越したことはないが、一例として、のべ約６５０時間、単語（形態素）にして約７００万語規模を目安とすることが考えられる（参考文献７参照）。

〔参考文献７〕古井貞煕、"一里塚としての「日本語話し言葉コーパス」"、[online]、2006年3月、日本音響学会講演論文集、p.1192、[2008年9月3日検索]、インターネット <URL: http://www.furui.cs.titech.ac.jp/publication/2006/0232_3-1-4.pdf>
第２表記判定部１４０は、単語ｗ_ｋと、当該単語ｗ_ｋについて求めた言語スコアＰ_c(S)、Ｐ_e(S)が入力され、単語ｗ_ｋの表記が正しい表記であるか誤った表記であるかを判定して、判定結果を出力する（Ｓ４）。判定方法は、例えば単純に、Ｐ_e(S)＞Ｐ_c(S)である場合に単語ｗ_ｋの表記は誤っていると判定してもよいし、正誤判定の性能を調整するために、Ｐ_e(S)＞α・Ｐ_c(S)（αは正の定数）である場合に単語ｗ_ｋの表記は誤っていると判定してもよい。後者の場合、αが小さいほど単語を誤りとして検出しやすくなる。なお、単語ｗ_ｋが誤り表記として含まれる組が複数ある場合は、それぞれの組の比較表記ｗ_ｋ´について言語スコアＰ_e(S)を算出し、算出した全てのＰ_e(S)のうち最もスコアが高いものを選択して上記のようにＰ_c(S)との比較判定を行う。
以上のように誤り表記検出装置を構成することで、誤り検出を表記に加えて発音も用いて行うため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合にも、高い精度で表記のゆらぎや誤りを自動検出することができる。

〔第２実施形態〕
図３に本発明の誤り表記検出装置２００の機能構成例を、図４にその処理フロー例を示す。誤り表記検出装置２００は、第１表記判定部２２０と発音判定部２６０と言語スコア計算部２３０と第２表記判定部１４０とから構成され、入力された誤り表記検出対象文書２の各単語それぞれについて正解表記であるか誤り表記であるかを判定し結果を出力する。

第２実施形態は、音声認識の結果などにより、誤り表記検出対象文書の各単語に対して実際の発音が付与されている場合に好適な構成である。第１実施形態の機能構成との主な相違は、誤り表記検出対象文書が予め単語単位に分割されているため形態素解析部１１０が無い一方、言語スコアの計算を行うか否かを、誤り表記検出対象文書の各単語に付与された実際の発音に応じて決定するための発音判定部２６０が加わっている点が挙げられる。

第１表記判定部２２０は、誤り表記を検出する対象文書である、ｎ個の単語ｗ_１、ｗ_２、・・・、ｗ_ｎからなる単語ごとに発音が付与された誤り表記検出対象文書２が入力され、それぞれの単語ｗ_ｋ（１≦ｋ≦ｎ）について、正解表記とその正しい発音と当該発音の正解表記以外の表記（誤り表記）との組がリスト化された正誤表記対照表３を参照して、単語ｗ_ｋが正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には正しい表記であると判定し、誤り表記のみに存在する場合には誤った表記であると判定して、それぞれの単語ごとに判定結果を出力する。また、単語ｗ_ｋが正解表記と誤り表記のいずれにも存在する場合には、単語ｗ_ｋとその発音を発音判定部２６０に向けて出力する（Ｓ５）。その他の説明は第１実施形態の第１表記判定部１２０の所で記したとおりである。

発音判定部２６０は、第１表記判定部２２０にて単語ｗ_ｋが正誤表記対照表３の正解表記と誤り表記のいずれにも存在すると確認された場合に、単語ｗ_ｋとその発音とが入力され、単語ｗ_ｋの発音について正誤表記対照表３を参照して、その発音において単語ｗ_ｋが正解表記のみに存在する場合には正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、単語ｗ_ｋと、単語ｗ_ｋが誤り表記として含まれる組の正解表記（比較表記）ｗ_ｋ´とを出力する（Ｓ６）。例えば、図４に示すように単語ｗ_ｋが「今日」でその発音が「キョウ」である場合、正誤表記対照表３において「キョウ」の発音に対する表記「今日」は誤り表記のみに存在するため、誤った表記であると判定結果を出力する。

言語スコア計算部２３０は、発音判定部２６０で単語ｗ_ｋが正誤表記対照表３の正解表記と誤り表記のいずれにも存在すると確認された場合に、誤り表記検出対象文書２と単語ｗ_ｋと比較表記ｗ_ｋ´とが入力され、誤り表記検出対象文書２において単語ｗ_ｋの表記をそのままにした場合の言語スコアＰ_c(S)と、比較表記ｗ_ｋ´に置き換えた場合の言語スコアＰ_e(S)をそれぞれ、統計的言語モデル４を用いてそれぞれ計算して単語ｗ_ｋとともに出力する（Ｓ７）。なお、言語スコアの計算方法や統計的言語モデル４の生成方法については、第１実施形態の言語スコア計算部１３０の所で説明したとおりである。

第２表記判定部１４０は、第１実施形態と同様のものであり、単語ｗ_ｋと、単語ｗ_ｋについて求めた言語スコアＰ_c(S)、Ｐ_e(S)とが入力され、単語ｗ_ｋの表記が正しい表記であるか誤った表記であるかを判定して、判定結果を出力する（Ｓ４）。
以上のように誤り表記検出装置を構成することで、第１実施形態と同様、誤り検出を表記に加えて発音も用いて行うため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合にも、高い精度で表記のゆらぎや誤りを自動検出することができる。

〔第３実施形態〕
第３実施形態の誤り表記検出装置１０１及び２０１は、図１及び図３の点線で示すように、第１実施形態の誤り表記検出装置１００及び第２実施形態の誤り表記検出装置２００の判定結果出力端に、それぞれメッセージ表示部１５１を接続した構成である。メッセージ表示部１５１は、第１表記判定部１２０（２２０）、第２表記判定部１４０及び発音判定部２６０での判定結果が入力され、誤った表記であると判定された単語ｗ_ｋについて、誤っている旨のメッセージを表示するか、誤り表記検出対象文書全体を表示する中でその他の単語と別の色で表示するか、又は正しい表記への訂正を促すメッセージを表示する。
このようにメッセージを表示することで、表記の誤りを直接視認することができる。

〔第４実施形態〕
上記各実施形態は誤り表記検出装置に係るものであったが、第４実施形態は上記各実施形態における誤り表記検出処理の中で用いる正誤表記対照表３を生成する誤り表記生成装置３００に係るものである。図５に本発明の誤り表記生成装置３００の機能構成例を、図６にその処理フロー例を示す。また、誤り表記検出装置１００（２００）と誤り表記生成装置３００とを組み合わせた全体構成イメージを図７に示す。

誤り表記生成装置３００は、表記同一発音検索部３１０と発音同一表記検索部３２０と同音異義語削除部３３０とから構成される。

誤り表記生成装置３００における処理に先立ち、それぞれの単語に対して任意のルールに基づき定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表２１と、それぞれの単語の表記とその読み方として想定される１以上の発音との組がリスト化された表記・発音対照辞書２２とをあらかじめ用意しておく。

なお、正解表記・発音対照表２１は、本発明での主な誤り表記検出対象文書である法律に係わる文書や議会の議事録が、標準的な用字用語に則るものであることから、例えば、参考文献３に記載された文部省用字用語例や参考文献４の用字用語辞典に記載された標準的な用字用語をベースに効率的に作成することができる。また特に、議会の議事録が対象である場合は、参考文献５、６を正解表記・発音対照表２１としてそのまま利用することができる。

また、表記・発音対照辞書２２は、特別なものである必要はなく、一般的な電子辞書、形態素解析・かな漢字用の辞書など、単語の表記と発音とが対になったものであれば構わない。

表記同一発音検索部３１０は、正解表記・発音対照表２１の各正解表記について、表記・発音対照辞書２２の同じ表記の組に係る発音を検索し、当該正解表記の正しい発音以外の発音を当該正解表記の発音として追記して第１中間リスト２３を生成・出力する（Ｓ１１）。例えば、図５に示すように正解表記・発音対照表２１の正解表記が「今日」でその正しい発音が「コンニチ」である場合には、表記・発音対照辞書２２の表記「今日」に対する発音が「キョウ」「コンニチ」であることから、差分である「キョウ」を追記し、正解表記「今日」に対応する発音を「キョウ」「コンニチ」として第１中間リスト２３を生成する。

発音同一表記検索部３２０は、第１中間リスト２３が入力され、第１中間リスト２３に含まれる正解表記の各発音をキーに、表記・発音対照辞書２２を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として第１中間リスト２３の当該正解表記に関連付けて追加して、第２中間リスト２４を生成・出力する（Ｓ１２）。例えば、正解表記「今日」に対応する発音「キョウ」「コンニチ」のそれぞれについて、表記・発音対照辞書２２を検索すると、「キョウ」については「今日」「きょう」が、「コンニチ」については「今日」「こんにち」が対応する表記であるため、正解表記である「今日」を除いた「きょう」「こんにち」を、正解表記「今日」に対する誤り表記候補として第１中間リスト２３の当該正解表記に関連付けて追加し、第２中間リスト２４を生成・出力する。

同音異義語削除部３３０は、第２中間リスト２４が入力され、第２中間リスト２４の誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記（誤り表記）との組がリスト化された正誤表記対照表３を生成して出力する（Ｓ１３）。例えば、正解表記が「振込」の場合、その発音が「フリコミ」であり、誤り表記候補には「振り込み」「振込み」「振りこみ」「降りこみ」「降込み」があるが、「降りこみ」「降込み」は同音異義語であるため削除し、残った「振り込み」「振込み」「振りこみ」が、正解表記「振込」に対する誤り表記となる。

以上のように誤り表記生成装置を構成することで、実質的に正解表記を準備するだけで誤り表記を生成することができるため、誤りの候補やルールを作成する必要が無くなり、文書編集作業の負担を軽減することができる。

上記の各実施形態の誤り表記検出装置、誤り表記生成装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

本発明は、文書を推敲が必要な用途において、表記のゆらぎ、誤りをより正確に統一、修正したい場合に有用である。

第１、３実施形態の誤り表記検出装置１００、１０１の機能構成例を示す図第１、３実施形態の誤り表記検出装置１００、１０１処理フロー例を示す図第２、３実施形態の誤り表記検出装置２００、２０１の機能構成例を示す図第２、３実施形態の誤り表記検出装置２００、２０１処理フロー例を示す図第４実施形態の誤り表記生成装置３００の機能構成例を示す図第４実施形態の誤り表記生成装置３００の処理フロー例を示す図誤り表記検出装置１００、２００と誤り表記生成装置３００との組み合わせイメージを示す図

Claims

誤り表記検出対象文書が入力され、単語単位に分割して単語列を出力する形態素解析部と、
上記単語列が入力され、当該単語列を構成する各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記（以下、「誤り表記」という）との組がリスト化された正誤表記対照表を参照して、当該単語の表記が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語の表記と、当該単語の表記が誤り表記として含まれる組の正解表記（以下、「比較表記」という）とを出力する第１表記判定部と、
上記第１表記判定部にて上記単語の表記が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語列と当該単語の表記と上記比較表記とが入力され、当該単語列において当該単語の表記を、そのままにした場合の言語スコアと、当該比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算部と、
上記言語スコア計算部で求めたそれぞれの言語スコアが入力され、上記単語の表記が正しい表記であるか誤った表記であるかの判定結果を出力する第２表記判定部と、
を備える誤り表記検出装置。
単語ごとに発音が付された誤り表記検出対象文書が入力され、各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記（以下、「誤り表記」という）との組がリスト化された正誤表記対照表を参照して、当該単語が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語とその発音を出力する第１表記判定部と、
上記第１表記判定部にて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語とその発音が入力され、当該単語の発音について上記正誤表記対照表を参照して、その発音において当該単語が正解表記のみに存在する場合には正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語と、当該単語が誤り表記として含まれる組の正解表記（以下、「比較表記」という）とを出力する発音判定部と、
上記発音判定部にて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記誤り表記検出対象文書と当該単語と上記比較表記とが入力され、当該誤り表記検出対象文書において当該単語の表記を、そのままにした場合の言語スコアと、当該比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算部と、
上記言語スコア計算部で求めたそれぞれの言語スコアが入力され、上記単語が正しい表記であるか誤った表記であるかの判定結果を出力する第２表記判定部と、
を備える誤り表記検出装置。
請求項１又は２のいずれかに記載の誤り表記検出装置において、
更に、上記判定結果が入力され、誤った表記であると判定された単語について、誤っている旨のメッセージを表示するか、誤り表記検出対象文書中にその他の単語と別の色で表示するか、又は正しい表記への訂正を促すメッセージを表示するメッセージ表示部を備えることを特徴とする誤り表記検出装置。
それぞれの単語に対して任意に定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表の各正解表記について、それぞれの単語の表記とその読み方として想定される１以上の発音との組がリスト化された表記・発音対照辞書の同じ表記の組に係る発音を検索し、当該正解表記の発音以外の発音を当該正解表記の発音に追記して生成した第１中間リストを出力する表記同一発音検索部と、
上記第１中間リストが入力され、当該第１中間リストに含まれる上記正解表記の各発音をキーに、上記表記・発音対照辞書を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として上記第１中間リストの当該正解表記に関連付けて追加して生成した第２中間リストを出力する発音同一表記検索部と、
上記第２中間リストが入力され、当該第２中間リストの上記誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記との組がリスト化された正誤表記対照表を生成して出力する同音異義語削除部と、
を備える誤り表記生成装置。
形態素解析部が、誤り表記検出対象文書を単語単位に分割して単語列を出力する形態素解析ステップと、
第１表記判定部が、上記単語列を構成する各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記（以下、「誤り表記」という）との組がリスト化された正誤表記対照表を参照して、当該単語の表記が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語の表記と、当該単語の表記が誤り表記として含まれる組の正解表記（以下、「比較表記」という）とを出力する第１表記判定ステップと、
言語スコア計算部が、上記第１表記判定ステップにて上記単語の表記が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語列において当該単語の表記を、そのままにした場合の言語スコアと、上記比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算ステップと、
第２表記判定部が、上記言語スコア計算ステップで求めたそれぞれの言語スコアから、上記単語の表記が正しい表記であるか誤った表記であるかを判定して結果を出力する第２表記判定ステップと、
を実行する誤り表記検出方法。
第１表記判定部が、単語ごとに発音が付された誤り表記検出対象文書の各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記（以下、「誤り表記」という）との組がリスト化された正誤表記対照表を参照して、当該単語が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語とその発音を出力する第１表記判定ステップと、
発音判定部が、上記第１表記判定ステップにて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語の発音について上記正誤表記対照表を参照して、その発音において当該単語が正解表記のみに存在する場合には正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語と、当該単語が誤り表記として含まれる組の正解表記（以下、「比較表記」という）とを出力する発音判定ステップと、
言語スコア計算部が、上記発音判定ステップにて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記誤り表記検出対象文書において当該単語の表記を、そのままにした場合の言語スコアと、上記比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算ステップと、
第２表記判定部が、上記言語スコア計算ステップで求めたそれぞれの言語スコアから、上記単語の表記が正しい表記であるか誤った表記であるかを判定して結果を出力する第２表記判定ステップと、
を実行する誤り表記検出方法。
請求項５又は６のいずれかに記載の誤り表記検出方法において、
更に、メッセージ表示部が、上記判定の結果、誤った表記であると判定された単語について、誤っている旨のメッセージを表示するか、誤り表記検出対象文書中にその他の単語と別の色で表示するか、又は正しい表記への訂正を促すメッセージを表示するメッセージ表示ステップを実行することを特徴とする誤り表記検出方法。
表記同一発音検索部が、それぞれの単語に対して任意に定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表の各正解表記について、それぞれの単語の表記とその読み方として想定される１以上の発音との組がリスト化された表記・発音対照辞書の同じ表記の組に係る発音を検索し、当該正解表記の正しい発音以外の発音を当該正解表記の発音として追記して生成した第１中間リストを出力する表記同一発音検索ステップと、
発音同一表記検索部が、上記第１中間リストに含まれる上記正解表記の各発音をキーに、上記表記・発音対照辞書を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として上記第１中間リストの当該正解表記に関連付けて追加して生成した第２中間リストを出力する発音同一表記検索ステップと、
同音異義語削除部が、上記第２中間リストの上記誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記との組がリスト化された正誤表記対照表を生成して出力する同音異義語削除ステップと、
を実行する誤り表記生成方法。
請求項１〜４のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
請求項９に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。