JP2010066957A - 誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体 - Google Patents

誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2010066957A
JP2010066957A JP2008231956A JP2008231956A JP2010066957A JP 2010066957 A JP2010066957 A JP 2010066957A JP 2008231956 A JP2008231956 A JP 2008231956A JP 2008231956 A JP2008231956 A JP 2008231956A JP 2010066957 A JP2010066957 A JP 2010066957A
Authority
JP
Japan
Prior art keywords
notation
correct
word
error
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008231956A
Other languages
English (en)
Other versions
JP5069194B2 (ja
Inventor
Hirokazu Masataki
浩和 政瀧
Akio Jin
昭夫 神
Satoshi Takahashi
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008231956A priority Critical patent/JP5069194B2/ja
Publication of JP2010066957A publication Critical patent/JP2010066957A/ja
Application granted granted Critical
Publication of JP5069194B2 publication Critical patent/JP5069194B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】高い精度で表記のゆらぎや誤りを検出可能とする。
【解決手段】誤り表記検出対象文書1を形態素解析部110にて各単語に分解し、第1表記判定部120にて各単語について正誤表記対照表3と照合し、当該単語が正誤表記対照表3の正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、更に言語スコア計算部130にて、統計的言語モデル4を用いて各表記の言語スコアを計算し、第2表記判定部140にて各言語スコアの比較により正しい表記であるか誤った表記であるかを判定して結果を出力する。
【選択図】図1

Description

本発明は、文書中の表記を推敲する技術に関し、具体的には表記のゆらぎ、誤りを正確に統一、修正するための誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体に関する。
法律に関わる文書や議会の議事録など、表記を正確に統一する必要がある文書をパーソナルコンピュータやワードプロセッサなどを用いて作成する際、表記のゆらぎや誤りを自動検出する方法として、従来、以下のような手法が実用化されている。
(1)任意に定めた統一基準による正解表記と誤り表記との組情報を予め持ち、文書から誤り表記が検出された場合に、その組情報に基づき訂正候補を提示する手法。
(2)ルールを作成して外来語や送り仮名などのゆらぎを訂正する手法。例えば、「ター」を「タ」に(ex.「インターフェース」→「インタフェース」)、「込み」を「込」に(ex.「振込み」→「振込」)、訂正するというルールを作成する。
特開平5−233620号公報
上記の従来手法には次のような問題がある。
(1)表記のみで正解、誤りを判断しているため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合に対応できない。例えば、「今日」という表記がある場合、「キョウ」と読みたい場合には「きょう」が正解表記(つまり「今日」は誤り表記)であり、「コンニチ」と読みたい場合には「今日」が正解表記であると統一基準として定めた時、文書に「今日」という表記が現われた時に「きょう」に訂正すべきか「今日」のままよいかの切り分けができない。
また、正解表記に対する誤り表記は必ずしも一つではないため、誤り候補を予め準備するための準備に手間がかかる。
(2)外来語や送り仮名以外にも表記を統一する必要があり、また統一の規則は単語ごとに異なるため、例えば、必ずしも全ての「ター」を「タ」に訂正すべきであるとは限らず、ルールだけでは限界がある。
本発明の目的は、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合にも、高い精度で表記のゆらぎや誤りを自動検出でき、また、誤りの候補やルールを作成する必要が無い、誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体を提供することにある。
本発明の誤り表記検出装置は、形態素解析部と第1表記判定部と言語スコア計算部と第2表記判定部とを備える。形態素解析部は、誤り表記検出対象文書が入力され、単語単位に分割して単語列を出力する。第1表記判定部は、当該単語列が入力され、当該単語列を構成する各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記(以下、「誤り表記」という)との組がリスト化された正誤表記対照表を参照して、当該単語が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語と当該単語が誤り表記として含まれる組の正解表記(以下、「比較表記」という)とを出力する。言語スコア計算部は、第1表記判定部にて当該単語が正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、当該単語列と当該単語と当該比較表記とが入力され、当該単語列において当該単語の表記を、そのままにした場合の言語スコアと、当該比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する。第2表記判定部は、言語スコア計算部で求めたそれぞれの言語スコアが入力され、当該単語が正しい表記であるか誤った表記であるかの判定結果を出力する。
また、本発明の誤り表記生成装置は、表記同一発音検索部と発音同一表記検索部と同音異義語削除部とを備える。表記同一発音検索部は、それぞれの単語に対して任意に定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表の各正解表記について、それぞれの単語の表記とその読み方として想定される1以上の発音との組がリスト化された表記・発音対照辞書の同じ表記の組に係る発音を検索し、当該正解表記の正しい発音以外の発音を当該正解表記の発音に追記して生成した第1中間リストを出力する。発音同一表記検索部は、第1中間リストが入力され、第1中間リストに含まれる当該正解表記の各発音をキーに、表記・発音対照辞書を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として第1中間リストの当該正解表記に関連付けて追加して生成した第2中間リストを出力する。同音異義語削除部は、第2中間リストが入力され、第2中間リストの当該誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記との組がリスト化された正誤表記対照表を生成して出力する。
本発明の誤り表記検出装置と誤り表記生成装置によれば、表記に加えて発音も検出に用いるため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解である場合にも、高い精度で表記のゆらぎや誤りを自動検出でき、また、誤りの候補やルールを作成する必要が無くなり、文書編集作業の負担を軽減することができる。
〔第1実施形態〕
図1に本発明の誤り表記検出装置100の機能構成例を、図2にその処理フロー例を示す。誤り表記検出装置100は、形態素解析部110と第1表記判定部120と言語スコア計算部130と第2表記判定部140とから構成され、入力された誤り表記検出対象文書1の各単語それぞれについて正解表記であるか誤り表記であるかを判定し結果を出力する。
形態素解析部110は、誤り表記を検出する対象文書である、n個の単語からなる誤り表記検出対象文書1が入力され、文書を単語単位に分割して単語列w、w、・・・、wを出力する(S1)。例えば、図2に示すように「それでは、今日はその問題について」という文書が入力された時、「それでは」「、」「今日」「は」「その」「問題」「について」というように分割した単語列を出力する。
第1表記判定部120は、形態素解析部110で分割された単語列w、w、・・・、wが入力され、それぞれの単語w(1≦k≦n)について、正解表記とその正しい発音と当該発音の正解表記以外の表記(誤り表記)との組がリスト化された正誤表記対照表3を参照して、単語wが正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には正しい表記であると判定し、誤り表記のみに存在する場合には誤った表記であると判定して、それぞれの単語ごとに判定結果を出力する。また、単語wが正解表記と誤り表記のいずれにも存在する場合には、単語wと、単語wが誤り表記として含まれる組の正解表記(比較表記)w´とを出力する(S2)。例えば、「それでは」「、」「今日」「は」「その」「問題」「について」という単語列が入力された場合において、正誤表記対照表3が図2に示すような内容である時、正解表記と誤り表記のいずれにも存在するのは「今日」のみであり、その他の単語はいずれにも存在しないため、「今日」と、「今日」が誤り表記として含まれる組の正解表記(比較表記)である「きょう」とを言語スコア計算部130に向けて出力し、それ以外の単語については正しい表記であるとの判定結果を出力する。
なお、ここで参照する正誤表記対照表3は、手作業で作成することも可能であるが、正解表記に対する誤り表記は必ずしも一つではないため、誤り候補を予め準備するための準備に手間がかかる。そのため、正誤表記対照表3を後述する誤り表記生成装置300により生成することで準備を省力化を図ることで、本発明による誤り表記検出処理をより円滑に行うことが可能となる。
言語スコア計算部130は、第1表記判定部120にて単語wが上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、形態素解析部110で分割された単語列w、w、・・・、wと、単語wと上記比較表記w´とが入力され、当該単語列において単語wをそのままにした場合の言語スコアPc(S)と、比較表記w´に置き換えた場合の言語スコアPe(S)をそれぞれ、統計的言語モデル4を用いて計算して単語wとともに出力する(S3)。
c(S)=P(w,・・・,wk-2,wk-1,wk,wk+1,wk+2,・・・,w)
e(S)=P(w,・・・,wk-2,wk-1,wk´,wk+1,wk+2,・・・,w)
統計的言語モデルとは、与えられた文書に対して、その文書を構成する単語列の生成確率を求めるためのモデルである。統計的言語モデルには連続音声認識などで盛んに使用されているN−gramを始めとして、任意の統計的言語モデルを使用できるが、ここではTrigramを使用した場合を例にとって言語スコアの計算方法を説明する。
Trigramは、単語列中のある単語wの出現確率を直前の2単語から予測するモデルでP(wt|wt-2,wt-1)として表現される。従って、文書全体の言語スコアは次式により求めることができる。
Figure 2010066957
また、確率の掛け算により値が小さくなるため、各確率の対数の和として次式のように求めてもよい。
Figure 2010066957
もっとも、本発明における言語スコア計算部130では、判定する単語wに関わる箇所の言語スコアのみがわかれば判定可能なため、次式のように積算を省略しても構わない。
Figure 2010066957
統計的言語モデル4(P(wt|wt-2,wt-1))は、言語スコア計算部230での言語スコアの計算に先立ち、正解表記のみで記された任意の文書11を用いて、公知の統計的言語モデル生成方法(例えば、参考文献1、2参照)を実行する統計的言語モデル生成装置12にて事前に生成しておく。
〔参考文献1〕中川聖一著、電子情報通信学会編、「確率モデルによる音声認識」、第1版、株式会社コロナ社、1988年7月、p.113-121
〔参考文献2〕鹿野清宏、外4名編著、情報処理学会編、「音声認識システム」、第1版、株式会社オーム社、2001年5月、p.53-68
統計的言語モデル4の生成に用いる正解表記のみで記された任意の文書11は、本発明での主な誤り表記検出対象文書である法律に係わる文書や議会の議事録が標準的な用字用語に則るものであることから、そのような既存の文書や議会の議事録を適宜選定してそれをそのまま利用することができる。また、参考文献3に記載された文部省用字用語例や参考文献4の用字用語辞典に記載された標準的な用字用語を正解表記として利用し、これに基づいて任意の文書11を容易に構成することもできる。特に、議会の議事録が対象である場合は、参考文献5、6を正解表記として利用し、これに基づいて任意の文書11を構成すればよい。
〔参考文献3〕文化庁編、「公用文の書き表し方の基準(資料集)」、増補2版、第一法規株式会社、2001年5月
〔参考文献4〕NHK放送文化研究所編、「NHK 新用字用語辞典」、第3版、株式会社日本放送出版協会、2004年3月
〔参考文献5〕衆議院事務局記録部、参議院事務局記録部編、「国会会議録用字例」、衆議院事務局記録部、参議院事務局記録部、1975年
〔参考文献6〕日本速記協会編、「改訂 標準用字用例辞典」、社団法人日本速記協会、2007年
なお、正解表記のみで記された任意の文書11のデータ量は多ければ多いに越したことはないが、一例として、のべ約650時間、単語(形態素)にして約700万語規模を目安とすることが考えられる(参考文献7参照)。
〔参考文献7〕古井貞煕、"一里塚としての「日本語話し言葉コーパス」"、[online]、2006年3月、日本音響学会講演論文集、p.1192、[2008年9月3日検索]、インターネット <URL: http://www.furui.cs.titech.ac.jp/publication/2006/0232_3-1-4.pdf>
第2表記判定部140は、単語wと、当該単語wについて求めた言語スコアPc(S)、Pe(S)が入力され、単語wの表記が正しい表記であるか誤った表記であるかを判定して、判定結果を出力する(S4)。判定方法は、例えば単純に、Pe(S)>Pc(S)である場合に単語wの表記は誤っていると判定してもよいし、正誤判定の性能を調整するために、Pe(S)>α・Pc(S)(αは正の定数)である場合に単語wの表記は誤っていると判定してもよい。後者の場合、αが小さいほど単語を誤りとして検出しやすくなる。なお、単語wが誤り表記として含まれる組が複数ある場合は、それぞれの組の比較表記w´について言語スコアPe(S)を算出し、算出した全てのPe(S)のうち最もスコアが高いものを選択して上記のようにPc(S)との比較判定を行う。
以上のように誤り表記検出装置を構成することで、誤り検出を表記に加えて発音も用いて行うため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合にも、高い精度で表記のゆらぎや誤りを自動検出することができる。
〔第2実施形態〕
図3に本発明の誤り表記検出装置200の機能構成例を、図4にその処理フロー例を示す。誤り表記検出装置200は、第1表記判定部220と発音判定部260と言語スコア計算部230と第2表記判定部140とから構成され、入力された誤り表記検出対象文書2の各単語それぞれについて正解表記であるか誤り表記であるかを判定し結果を出力する。
第2実施形態は、音声認識の結果などにより、誤り表記検出対象文書の各単語に対して実際の発音が付与されている場合に好適な構成である。第1実施形態の機能構成との主な相違は、誤り表記検出対象文書が予め単語単位に分割されているため形態素解析部110が無い一方、言語スコアの計算を行うか否かを、誤り表記検出対象文書の各単語に付与された実際の発音に応じて決定するための発音判定部260が加わっている点が挙げられる。
第1表記判定部220は、誤り表記を検出する対象文書である、n個の単語w、w、・・・、wからなる単語ごとに発音が付与された誤り表記検出対象文書2が入力され、それぞれの単語w(1≦k≦n)について、正解表記とその正しい発音と当該発音の正解表記以外の表記(誤り表記)との組がリスト化された正誤表記対照表3を参照して、単語wが正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には正しい表記であると判定し、誤り表記のみに存在する場合には誤った表記であると判定して、それぞれの単語ごとに判定結果を出力する。また、単語wが正解表記と誤り表記のいずれにも存在する場合には、単語wとその発音を発音判定部260に向けて出力する(S5)。その他の説明は第1実施形態の第1表記判定部120の所で記したとおりである。
発音判定部260は、第1表記判定部220にて単語wが正誤表記対照表3の正解表記と誤り表記のいずれにも存在すると確認された場合に、単語wとその発音とが入力され、単語wの発音について正誤表記対照表3を参照して、その発音において単語wが正解表記のみに存在する場合には正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、単語wと、単語wが誤り表記として含まれる組の正解表記(比較表記)w´とを出力する(S6)。例えば、図4に示すように単語wが「今日」でその発音が「キョウ」である場合、正誤表記対照表3において「キョウ」の発音に対する表記「今日」は誤り表記のみに存在するため、誤った表記であると判定結果を出力する。
言語スコア計算部230は、発音判定部260で単語wが正誤表記対照表3の正解表記と誤り表記のいずれにも存在すると確認された場合に、誤り表記検出対象文書2と単語wと比較表記w´とが入力され、誤り表記検出対象文書2において単語wの表記をそのままにした場合の言語スコアPc(S)と、比較表記w´に置き換えた場合の言語スコアPe(S)をそれぞれ、統計的言語モデル4を用いてそれぞれ計算して単語wとともに出力する(S7)。なお、言語スコアの計算方法や統計的言語モデル4の生成方法については、第1実施形態の言語スコア計算部130の所で説明したとおりである。
第2表記判定部140は、第1実施形態と同様のものであり、単語wと、単語wについて求めた言語スコアPc(S)、Pe(S)とが入力され、単語wの表記が正しい表記であるか誤った表記であるかを判定して、判定結果を出力する(S4)。
以上のように誤り表記検出装置を構成することで、第1実施形態と同様、誤り検出を表記に加えて発音も用いて行うため、同じ表記であるにもかかわらず、ある読み方としては誤りであり、ある読み方としては正解であるような場合にも、高い精度で表記のゆらぎや誤りを自動検出することができる。
〔第3実施形態〕
第3実施形態の誤り表記検出装置101及び201は、図1及び図3の点線で示すように、第1実施形態の誤り表記検出装置100及び第2実施形態の誤り表記検出装置200の判定結果出力端に、それぞれメッセージ表示部151を接続した構成である。メッセージ表示部151は、第1表記判定部120(220)、第2表記判定部140及び発音判定部260での判定結果が入力され、誤った表記であると判定された単語wについて、誤っている旨のメッセージを表示するか、誤り表記検出対象文書全体を表示する中でその他の単語と別の色で表示するか、又は正しい表記への訂正を促すメッセージを表示する。
このようにメッセージを表示することで、表記の誤りを直接視認することができる。
〔第4実施形態〕
上記各実施形態は誤り表記検出装置に係るものであったが、第4実施形態は上記各実施形態における誤り表記検出処理の中で用いる正誤表記対照表3を生成する誤り表記生成装置300に係るものである。図5に本発明の誤り表記生成装置300の機能構成例を、図6にその処理フロー例を示す。また、誤り表記検出装置100(200)と誤り表記生成装置300とを組み合わせた全体構成イメージを図7に示す。
誤り表記生成装置300は、表記同一発音検索部310と発音同一表記検索部320と同音異義語削除部330とから構成される。
誤り表記生成装置300における処理に先立ち、それぞれの単語に対して任意のルールに基づき定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表21と、それぞれの単語の表記とその読み方として想定される1以上の発音との組がリスト化された表記・発音対照辞書22とをあらかじめ用意しておく。
なお、正解表記・発音対照表21は、本発明での主な誤り表記検出対象文書である法律に係わる文書や議会の議事録が、標準的な用字用語に則るものであることから、例えば、参考文献3に記載された文部省用字用語例や参考文献4の用字用語辞典に記載された標準的な用字用語をベースに効率的に作成することができる。また特に、議会の議事録が対象である場合は、参考文献5、6を正解表記・発音対照表21としてそのまま利用することができる。
また、表記・発音対照辞書22は、特別なものである必要はなく、一般的な電子辞書、形態素解析・かな漢字用の辞書など、単語の表記と発音とが対になったものであれば構わない。
表記同一発音検索部310は、正解表記・発音対照表21の各正解表記について、表記・発音対照辞書22の同じ表記の組に係る発音を検索し、当該正解表記の正しい発音以外の発音を当該正解表記の発音として追記して第1中間リスト23を生成・出力する(S11)。例えば、図5に示すように正解表記・発音対照表21の正解表記が「今日」でその正しい発音が「コンニチ」である場合には、表記・発音対照辞書22の表記「今日」に対する発音が「キョウ」「コンニチ」であることから、差分である「キョウ」を追記し、正解表記「今日」に対応する発音を「キョウ」「コンニチ」として第1中間リスト23を生成する。
発音同一表記検索部320は、第1中間リスト23が入力され、第1中間リスト23に含まれる正解表記の各発音をキーに、表記・発音対照辞書22を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として第1中間リスト23の当該正解表記に関連付けて追加して、第2中間リスト24を生成・出力する(S12)。例えば、正解表記「今日」に対応する発音「キョウ」「コンニチ」のそれぞれについて、表記・発音対照辞書22を検索すると、「キョウ」については「今日」「きょう」が、「コンニチ」については「今日」「こんにち」が対応する表記であるため、正解表記である「今日」を除いた「きょう」「こんにち」を、正解表記「今日」に対する誤り表記候補として第1中間リスト23の当該正解表記に関連付けて追加し、第2中間リスト24を生成・出力する。
同音異義語削除部330は、第2中間リスト24が入力され、第2中間リスト24の誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記(誤り表記)との組がリスト化された正誤表記対照表3を生成して出力する(S13)。例えば、正解表記が「振込」の場合、その発音が「フリコミ」であり、誤り表記候補には「振り込み」「振込み」「振りこみ」「降りこみ」「降込み」があるが、「降りこみ」「降込み」は同音異義語であるため削除し、残った「振り込み」「振込み」「振りこみ」が、正解表記「振込」に対する誤り表記となる。
以上のように誤り表記生成装置を構成することで、実質的に正解表記を準備するだけで誤り表記を生成することができるため、誤りの候補やルールを作成する必要が無くなり、文書編集作業の負担を軽減することができる。
上記の各実施形態の誤り表記検出装置、誤り表記生成装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本発明は、文書を推敲が必要な用途において、表記のゆらぎ、誤りをより正確に統一、修正したい場合に有用である。
第1、3実施形態の誤り表記検出装置100、101の機能構成例を示す図 第1、3実施形態の誤り表記検出装置100、101処理フロー例を示す図 第2、3実施形態の誤り表記検出装置200、201の機能構成例を示す図 第2、3実施形態の誤り表記検出装置200、201処理フロー例を示す図 第4実施形態の誤り表記生成装置300の機能構成例を示す図 第4実施形態の誤り表記生成装置300の処理フロー例を示す図 誤り表記検出装置100、200と誤り表記生成装置300との組み合わせイメージを示す図

Claims (10)

  1. 誤り表記検出対象文書が入力され、単語単位に分割して単語列を出力する形態素解析部と、
    上記単語列が入力され、当該単語列を構成する各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記(以下、「誤り表記」という)との組がリスト化された正誤表記対照表を参照して、当該単語の表記が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語の表記と、当該単語の表記が誤り表記として含まれる組の正解表記(以下、「比較表記」という)とを出力する第1表記判定部と、
    上記第1表記判定部にて上記単語の表記が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語列と当該単語の表記と上記比較表記とが入力され、当該単語列において当該単語の表記を、そのままにした場合の言語スコアと、当該比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算部と、
    上記言語スコア計算部で求めたそれぞれの言語スコアが入力され、上記単語の表記が正しい表記であるか誤った表記であるかの判定結果を出力する第2表記判定部と、
    を備える誤り表記検出装置。
  2. 単語ごとに発音が付された誤り表記検出対象文書が入力され、各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記(以下、「誤り表記」という)との組がリスト化された正誤表記対照表を参照して、当該単語が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語とその発音を出力する第1表記判定部と、
    上記第1表記判定部にて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語とその発音が入力され、当該単語の発音について上記正誤表記対照表を参照して、その発音において当該単語が正解表記のみに存在する場合には正しい表記であるとの判定結果を出力し、誤り表記のみに存在する場合には誤った表記であるとの判定結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語と、当該単語が誤り表記として含まれる組の正解表記(以下、「比較表記」という)とを出力する発音判定部と、
    上記発音判定部にて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記誤り表記検出対象文書と当該単語と上記比較表記とが入力され、当該誤り表記検出対象文書において当該単語の表記を、そのままにした場合の言語スコアと、当該比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算部と、
    上記言語スコア計算部で求めたそれぞれの言語スコアが入力され、上記単語が正しい表記であるか誤った表記であるかの判定結果を出力する第2表記判定部と、
    を備える誤り表記検出装置。
  3. 請求項1又は2のいずれかに記載の誤り表記検出装置において、
    更に、上記判定結果が入力され、誤った表記であると判定された単語について、誤っている旨のメッセージを表示するか、誤り表記検出対象文書中にその他の単語と別の色で表示するか、又は正しい表記への訂正を促すメッセージを表示するメッセージ表示部を備えることを特徴とする誤り表記検出装置。
  4. それぞれの単語に対して任意に定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表の各正解表記について、それぞれの単語の表記とその読み方として想定される1以上の発音との組がリスト化された表記・発音対照辞書の同じ表記の組に係る発音を検索し、当該正解表記の発音以外の発音を当該正解表記の発音に追記して生成した第1中間リストを出力する表記同一発音検索部と、
    上記第1中間リストが入力され、当該第1中間リストに含まれる上記正解表記の各発音をキーに、上記表記・発音対照辞書を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として上記第1中間リストの当該正解表記に関連付けて追加して生成した第2中間リストを出力する発音同一表記検索部と、
    上記第2中間リストが入力され、当該第2中間リストの上記誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記との組がリスト化された正誤表記対照表を生成して出力する同音異義語削除部と、
    を備える誤り表記生成装置。
  5. 形態素解析部が、誤り表記検出対象文書を単語単位に分割して単語列を出力する形態素解析ステップと、
    第1表記判定部が、上記単語列を構成する各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記(以下、「誤り表記」という)との組がリスト化された正誤表記対照表を参照して、当該単語の表記が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には当該単語は誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語の表記と、当該単語の表記が誤り表記として含まれる組の正解表記(以下、「比較表記」という)とを出力する第1表記判定ステップと、
    言語スコア計算部が、上記第1表記判定ステップにて上記単語の表記が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語列において当該単語の表記を、そのままにした場合の言語スコアと、上記比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算ステップと、
    第2表記判定部が、上記言語スコア計算ステップで求めたそれぞれの言語スコアから、上記単語の表記が正しい表記であるか誤った表記であるかを判定して結果を出力する第2表記判定ステップと、
    を実行する誤り表記検出方法。
  6. 第1表記判定部が、単語ごとに発音が付された誤り表記検出対象文書の各単語について、正解表記とその正しい発音と当該発音の正解表記以外の表記(以下、「誤り表記」という)との組がリスト化された正誤表記対照表を参照して、当該単語が正解表記のみに存在するか又は正解表記と誤り表記のいずれにも存在しない場合には当該単語は正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語とその発音を出力する第1表記判定ステップと、
    発音判定部が、上記第1表記判定ステップにて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記単語の発音について上記正誤表記対照表を参照して、その発音において当該単語が正解表記のみに存在する場合には正しい表記であると判定して結果を出力し、誤り表記のみに存在する場合には誤った表記であると判定して結果を出力し、正解表記と誤り表記のいずれにも存在する場合には、当該単語と、当該単語が誤り表記として含まれる組の正解表記(以下、「比較表記」という)とを出力する発音判定ステップと、
    言語スコア計算部が、上記発音判定ステップにて上記単語が上記正誤表記対照表の正解表記と誤り表記のいずれにも存在すると確認された場合に、上記誤り表記検出対象文書において当該単語の表記を、そのままにした場合の言語スコアと、上記比較表記に置き換えた場合の言語スコアを、正解表記のみで記された任意の文書から作成した統計的言語モデルを用いて、それぞれ計算して当該単語とともに出力する言語スコア計算ステップと、
    第2表記判定部が、上記言語スコア計算ステップで求めたそれぞれの言語スコアから、上記単語の表記が正しい表記であるか誤った表記であるかを判定して結果を出力する第2表記判定ステップと、
    を実行する誤り表記検出方法。
  7. 請求項5又は6のいずれかに記載の誤り表記検出方法において、
    更に、メッセージ表示部が、上記判定の結果、誤った表記であると判定された単語について、誤っている旨のメッセージを表示するか、誤り表記検出対象文書中にその他の単語と別の色で表示するか、又は正しい表記への訂正を促すメッセージを表示するメッセージ表示ステップを実行することを特徴とする誤り表記検出方法。
  8. 表記同一発音検索部が、それぞれの単語に対して任意に定めた正解表記とその正しい発音との組がリスト化された正解表記・発音対照表の各正解表記について、それぞれの単語の表記とその読み方として想定される1以上の発音との組がリスト化された表記・発音対照辞書の同じ表記の組に係る発音を検索し、当該正解表記の正しい発音以外の発音を当該正解表記の発音として追記して生成した第1中間リストを出力する表記同一発音検索ステップと、
    発音同一表記検索部が、上記第1中間リストに含まれる上記正解表記の各発音をキーに、上記表記・発音対照辞書を検索して、当該各発音に対応する当該正解表記以外の表記を抽出し、抽出した表記を誤り表記候補として上記第1中間リストの当該正解表記に関連付けて追加して生成した第2中間リストを出力する発音同一表記検索ステップと、
    同音異義語削除部が、上記第2中間リストの上記誤り表記候補から同音異義語を削除して、正解表記とその正しい発音と当該発音の正解表記以外の表記との組がリスト化された正誤表記対照表を生成して出力する同音異義語削除ステップと、
    を実行する誤り表記生成方法。
  9. 請求項1〜4のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
  10. 請求項9に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。
JP2008231956A 2008-09-10 2008-09-10 誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体 Expired - Fee Related JP5069194B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008231956A JP5069194B2 (ja) 2008-09-10 2008-09-10 誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008231956A JP5069194B2 (ja) 2008-09-10 2008-09-10 誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2010066957A true JP2010066957A (ja) 2010-03-25
JP5069194B2 JP5069194B2 (ja) 2012-11-07

Family

ID=42192497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008231956A Expired - Fee Related JP5069194B2 (ja) 2008-09-10 2008-09-10 誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP5069194B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020516994A (ja) * 2017-03-29 2020-06-11 北京捜狗科技▲発▼展有限公司 テキスト編集方法、装置及び電子機器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62212871A (ja) * 1986-03-14 1987-09-18 Fujitsu Ltd 文章読み上げ校正装置
JP2003196636A (ja) * 2001-12-26 2003-07-11 Communication Research Laboratory 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62212871A (ja) * 1986-03-14 1987-09-18 Fujitsu Ltd 文章読み上げ校正装置
JP2003196636A (ja) * 2001-12-26 2003-07-11 Communication Research Laboratory 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020516994A (ja) * 2017-03-29 2020-06-11 北京捜狗科技▲発▼展有限公司 テキスト編集方法、装置及び電子機器

Also Published As

Publication number Publication date
JP5069194B2 (ja) 2012-11-07

Similar Documents

Publication Publication Date Title
CN109783796B (zh) 预测文本内容中的样式破坏
US9626152B2 (en) Methods and systems for recommending responsive sticker
JP5362095B2 (ja) インプットメソッドエディタ
US8447602B2 (en) System for speech recognition and correction, correction device and method for creating a lexicon of alternatives
KR102348845B1 (ko) 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
JP4887264B2 (ja) 音声データ検索システム
US9881010B1 (en) Suggestions based on document topics
US10803241B2 (en) System and method for text normalization in noisy channels
US20160210279A1 (en) Methods and systems for analyzing communication situation based on emotion information
US20150370780A1 (en) Predictive conversion of language input
US20190361961A1 (en) Fact validation in document editors
CN109791761A (zh) 使用校正的术语的声学模型训练
US9542383B2 (en) Example-based error detection system for automatic evaluation of writing, method for same, and error detection apparatus for same
US11568150B2 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
US20160210117A1 (en) Methods and systems for recommending dialogue sticker based on similar situation detection
CN106462564A (zh) 在文档内提供实际建议
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP5069194B2 (ja) 誤り表記検出装置、誤り表記生成装置、それらの方法、プログラムおよび記録媒体
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
US11288451B2 (en) Machine based expansion of contractions in text in digital media
JP4839291B2 (ja) 音声認識装置およびコンピュータプログラム
US12026148B2 (en) Dynamic updating of digital data
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JP2013109125A (ja) 単語追加装置、単語追加方法、およびプログラム
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120816

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees