JP2011221662A - 辞書編集装置およびプログラム - Google Patents

辞書編集装置およびプログラム Download PDF

Info

Publication number
JP2011221662A
JP2011221662A JP2010088051A JP2010088051A JP2011221662A JP 2011221662 A JP2011221662 A JP 2011221662A JP 2010088051 A JP2010088051 A JP 2010088051A JP 2010088051 A JP2010088051 A JP 2010088051A JP 2011221662 A JP2011221662 A JP 2011221662A
Authority
JP
Japan
Prior art keywords
entry information
entry
similar
correction target
dictionary storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010088051A
Other languages
English (en)
Inventor
Masaru Matsuoka
賢 松岡
Rumi Hayakawa
ルミ 早川
Masahisa Shinozaki
政久 篠崎
Toshiyuki Kano
敏行 加納
Yoshinori Masaoka
良規 正岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010088051A priority Critical patent/JP2011221662A/ja
Publication of JP2011221662A publication Critical patent/JP2011221662A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書チェック辞書において類似したエントリを集約することにより、当該文書チェック辞書のエントリの数を削減することを可能とする。
【解決手段】類似表現検索部31は、文書チェック辞書格納部22から取り出されたエントリ情報を構成する修正対象文および修正候補文に含まれる文字列と類似する文字列を類似表現辞書格納部23から取得する。類似表現検索部31は、取り出されたエントリ情報を構成する修正対象文に含まれる文字列が置き換えられた修正対象文から構成されるエントリ情報を検索する。類似エントリ集約部32は、取り出されたエントリ情報と検索されたエントリ情報とを1つのエントリ情報に集約する。辞書編集部33は、集約された1つのエントリ情報を文書チェック辞書格納部22に登録し、取り出されたエントリ情報および検索されたエントリ情報を文書チェック辞書格納部22から削除する。
【選択図】図2

Description

本発明は、文書の表現を校正する際に用いられる文書チェック辞書を編集する辞書編集装置およびプログラムに関する。
近年、文書に対してチェックを行い、当該文書の表現の誤りを検出して当該表現の修正候補を出力するシステム(以下、文書チェックシステムと表記)が知られている。
この文書チェックシステムにおいては、例えば修正対象となる表現(修正対象文)および当該表現の修正候補となる表現(修正候補文)が記述された辞書(文書チェック辞書)が予め用意されており、当該辞書を利用することによって文書に対するチェックが行われる。
なお、文書チェック辞書に記述される内容の追加、変更および削除等(つまり、当該文書チェック辞書の編集)は、一般的にはユーザによって行われる。
文書チェック辞書の編集に関連して、例えば文著チェック辞書に誤りパターンを登録するする時間を短くするとともに、誤りパターンの登録漏れを防止することが可能な技術が開示されている(例えば、特許文献1を参照)。
特開平2−297159号公報
ところで、上記した文書チェックシステムを長期間使用するような場合には、当該文書チェックシステムにおいて利用される文書チェック辞書のエントリの数(つまり、修正対象となる表現および当該表現の修正候補となる表現の組の登録の数)が膨大となる可能性がある。
このような状態で上記したようにユーザが文書チェック辞書の編集をしようとした場合、文書チェック辞書のエントリの数が多いことから編集の対象となる箇所を見つけることが困難となる場合がある。
また、このように文書チェック辞書のエントリの数が膨大である場合には、当該エントリの数が少ない場合と比較して、文書チェック辞書のエントリ間で不整合が生じる可能性が高くなる。
そこで、本発明の目的は、文書チェック辞書において類似したエントリを集約することにより、当該文書チェック辞書のエントリの数を削減することが可能な辞書編集装置およびプログラムを提供することにある。
本発明の1つの態様によれば、文字列を含む修正対象文および当該修正対象文の修正候補となる修正候補文から構成される複数のエントリ情報を格納する文書チェック辞書格納手段と、互いに類似する複数の文字列を予め格納する類似表現辞書格納手段と、前記文書チェック辞書格納手段に格納されているエントリ情報を取り出す取り出し手段と、前記取り出されたエントリ情報を構成する修正対象文に含まれる文字列と類似する文字列を前記類似表現辞書格納手段から取得する取得手段と、前記取り出されたエントリ情報を構成する修正対象文に含まれる文字列を前記取得された文字列に置き換えることによって得られる修正対象文から構成されるエントリ情報を、前記文書チェック辞書格納手段から検索する検索手段と、前記取り出されたエントリ情報と前記検索されたエントリ情報とを1つのエントリ情報に集約する集約手段と、前記集約された1つのエントリ情報を前記文書チェック辞書格納手段に登録し、前記1つのエントリ情報に集約された前記取り出されたエントリ情報および前記検索されたエントリ情報を前記文書チェック辞書格納手段から削除する辞書編集手段とを具備する辞書編集装置が提供される。
本発明は、文書チェック辞書において類似したエントリを集約することにより、当該文書チェック辞書のエントリの数を削減することを可能とする。
本発明の第1の実施形態に係る辞書編集装置のハードウェア構成を示すブロック図。 図1に示す辞書編集装置30の主として機能構成を示すブロック図。 図2に示す文書チェック辞書格納部22のデータ構造の一例を示す図。 図2に示す類似表現辞書格納部23のデータ構造の一例を示す図。 本実施形態に係る辞書編集装置30の処理手順を示すフローチャート。 類似エントリ検索処理の処理手順を示すフローチャート。 本実施形態における辞書編集装置30による処理が実行された後の文書チェック辞書格納部22のデータ構造の一例を示す図。 本発明の第2の実施形態に係る辞書編集装置の主として機能構成を示すブロック図。 本実施形態に係る辞書編集装置300の処理手順を示すフローチャート。
以下、図面を参照して、本発明の各実施形態について説明する。
[第1の実施形態]
まず、図1および図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る辞書編集装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、辞書編集装置30を構成する。
図2は、図1に示す辞書編集装置30の主として機能構成を示すブロック図である。図2に示すように、辞書編集装置30は、類似表現検索部31、類似エントリ集約部32および辞書編集部33を含む。本実施形態において、これらの各部31〜33は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
また、辞書編集装置30は、文書チェック辞書格納部22および類似表現辞書格納部23を含む。本実施形態において、文書チェック辞書格納部22および類似表現辞書格納部23は、例えば外部記憶装置20に格納される。
文書チェック辞書格納部22には、例えば文書(の表現)に対するチェックを行う際に用いられる文書チェック辞書が格納される。
文書チェック辞書格納部22には、修正の対象となる文(以下、修正対象文と表記)および当該修正対象文の修正候補となる文(以下、修正候補文と表記)から構成される複数のエントリ(情報)が格納(登録)されている。文書に対するチェックを行う際に、この文書チェック辞書格納部22(に格納されている文書チェック辞書)を利用することで、修正対象文に対する修正候補として修正候補文を出力することができる。文書チェック辞書格納部22に格納されている各エントリを構成する修正対象文および修正候補文には文字列が含まれる。
類似表現辞書格納部23には、互いに類似する複数の文字列が予め格納されている。つまり、類似表現辞書格納部23には、互いに類義語となる語の集合が予め格納されている。
類似表現検索部31は、文書チェック辞書格納部22に格納(登録)されているエントリを構成する修正対象文および修正候補文に含まれる文字列と類似する文字列、および当該修正対象文に基づいて、当該エントリに類似するエントリを文書チェック辞書格納部22から検索する。なお、文書チェック辞書格納部22に格納されているエントリを構成する修正対象文および修正候補文に含まれる文字列と類似する文字列は、類似表現辞書格納部23から取得される。
類似エントリ集約部32は、複数のエントリ(例えば、2つのエントリ)を、1つのエントリに集約する機能を有する。類似エントリ集約部32は、文書チェック辞書格納部22に格納されているエントリおよび類似表現検索部31によって検索されたエントリを1つのエントリに集約する。
辞書編集部33は、類似エントリ集約部32によって集約された1つのエントリを、文書チェック辞書格納部22に書き込む(登録する)。
また、辞書編集部33は、類似エントリ集約部32によって1つのエントリに集約される前の複数のエントリを、文書チェック辞書格納部22から削除する。換言すれば、辞書編集部33は、類似エントリ集約部32によって1つのエントリに集約される際に用いられたエントリを文書チェック辞書格納部22から削除する。
図3は、図2に示す文書チェック辞書格納部22のデータ構造の一例を示す。図3に示す文書チェック辞書格納部22には、エントリ221および222を含む複数のエントリが登録(格納)されている。
文書チェック辞書格納部22に格納されているエントリの各々は、修正の対象となる修正対象文(修正前の表現)および当該修正対象文の修正候補となる修正候補文(修正後の表現)から構成される。
図3に示す例では、文書チェック辞書格納部22に登録されているエントリ221は、修正対象文「本をかいていする」および修正候補文「本を改訂する」から構成される。このエントリ221によれば、例えば文書に修正対象文「本をかいていする」の表現が出現する場合、当該表現が修正候補文「本を改訂する」の表現に修正される。
また、文書チェック辞書格納部22に登録されているエントリ222は、修正対象文「テキストをかいていする」および修正候補文「テキストを改訂する」から構成される。このエントリ222によれば、例えば文書に修正対象文「テキストをかいていする」の表現が出現する場合、当該表現が修正候補文「テキストを改訂する」の表現に修正される。
図4は、図2に示す類似表現辞書格納部23のデータ構造の一例を示す。類似表現辞書格納部23には、互いに類似する複数の文字列(つまり、互いに類義語となる語の集合)が対応づけて格納されている。
図4に示す例では、類似表現辞書格納部23には、「本」、「書物」、「書籍」、「図書」、「蔵書」および「テキスト」が対応づけて格納されている。これによれば、「本」、「書物」、「書籍」、「図書」、「蔵書」および「テキスト」の語(文字列)は、互いに類義語であることが示される。
また、類似表現辞書格納部23には、「車」、「自動車」および「車両」が対応づけて格納されている。これによれば、「車」、「自動車」および「車両」の語は、互いに類義語であることが示される。
次に、図5のフローチャートを参照して、本実施形態に係る辞書編集装置30の処理手順について説明する。なお、図5に示す処理は、辞書編集装置30を操作するユーザによって当該処理を開始する旨の指示がされた場合に実行されてもよいし、予め定められた時間(つまり、定期的)に実行されても構わない。
まず、類似表現検索部31は、文書チェック辞書格納部22に格納されている複数のエントリの中から1つのエントリを取り出す(ステップS1)。なお、類似表現検索部31によって取り出されたエントリは、上述したように修正対象文および修正候補文から構成される。
以下、類似表現検索部31によって文書チェック辞書格納部22から取り出されたエントリを対象エントリと称する。
次に、類似表現検索部31は、対象エントリと類似するエントリ(以下、類似エントリと表記)を文書チェック辞書格納部22から検索する処理(以下、類似エントリ検索処理と表記)を実行する(ステップS2)。
このとき、類似表現検索部31は、対象エントリを構成する修正対象文および当該修正対象文に含まれる文字列に類似する文字列に基づいて類似エントリ検索処理を実行する。なお、対象エントリを構成する修正対象文に含まれる文字列に類似する文字列は、類似表現辞書格納部23から取得される。
なお、ステップS2において実行される類似エントリ検索処理の詳細については、後述する。
次に、類似エントリ集約部32は、対象エントリおよびステップS2における類似エントリ検索処理において検索された類似エントリの2つのエントリを1つのエントリに集約する(ステップS3)。
ここで、対象エントリおよび類似エントリを1つのエントリに集約する方法として、正規表現が用いられる。
例えば対象エントリを構成する修正対象文および類似エントリを構成する修正対象文の2つの修正対象文のそれぞれに含まれる互いに類似する文字列を正規表現で表すことによって、当該2つの修正対象文を1つの修正対象文に集約する。
同様に、対象エントリを構成する修正候補文および類似エントリを構成する修正対象文の2つの修正候補文のそれぞれに含まれる互いに類似する文字列を正規表現で表すことによって、当該2つの修正候補文を1つの修正候補文に集約する。
これにより、類似エントリ集約部32は、対象エントリおよび類似エントリを、集約された1つの修正対象文と集約された1つの集約候補文とから構成される1つのエントリに集約することができる。
以下、類似エントリ集約部32によって集約された1つのエントリを集約エントリと称する。
次に、辞書編集部33は、集約エントリ(ステップS3において集約されたエントリ)を文書チェック辞書格納部22に登録する(ステップS4)。
また、辞書編集部33は、対象エントリおよび類似エントリの2つのエントリ(つまり、集約エントリに集約される前の2つのエントリ)を文書チェック辞書格納部22から削除する(ステップS5)。
このように、ステップS4およびステップS5の処理が実行されることによって集約エントリが文書チェック辞書格納部22に登録される一方、対象エントリおよび類似エントリの2つのエントリが当該文書チェック辞書格納部22から削除される。これにより、文書チェック辞書格納部22に登録されているエントリの内容が損なわれることなく、当該エントリの数を削減することができる。
ステップS5の処理が実行されると、文書チェック辞書格納部22に格納されている全てのエントリについて上記したステップS1〜ステップS5の処理が実行されたか否かが判定される(ステップS6)。
全てのエントリについて処理が実行されていないと判定された場合(ステップS6のNO)、上記したステップS1に戻って処理が繰り返される。このステップS1においては、処理が実行されていないエントリが文書チェック辞書格納部22から取り出される。
なお、図5においては図示されていないが、上記したステップS2における類似エントリ検索処理において類似エントリが検索されない場合、つまり、当該類似エントリが文書チェック辞書格納部22に存在しない場合には、ステップS6の処理が実行されるものとする。
次に、図6のフローチャートを参照して、上述した類似エントリ検索処理(図5に示すステップS2の処理)の処理手順について説明する。
以下の説明においては、図5に示すステップS1において取り出されたエントリを対象エントリとする。類似エントリ検索処理においては、対象エントリと類似するエントリ(類似エントリ)が文書チェック辞書格納部22から検索される。
まず、類似表現検索部31は、対象エントリ(を構成する修正対象文および修正候補文の各々)を形態素解析する(ステップS11)。
この形態素解析によれば、対象エントリを構成する修正対象文および修正候補文が形態素(の文字列)に分割され、当該形態素に品詞が付与される。
類似表現検索部31は、対象エントリの形態素解析結果に基づいて、当該対象エントリを構成する修正対象文および修正候補文に含まれる文字列のうち、品詞が名詞である文字列を抽出する(ステップS12)。この場合、類似表現検索部31は、対象エントリを構成する修正対象文および修正候補文に含まれる文字列(品詞が名詞である文字列)のうち、例えば当該修正対象文および修正候補文において共通に出現する文字列を抽出する。以下、ステップS12において抽出された文字列を抽出文字列と称する。
類似表現検索部31は、抽出文字列の類義語(当該抽出文字列と類似する文字列)を、類似表現辞書格納部23から検索する(ステップS13)。具体的には、類似表現検索部31は、抽出文字列に対応づけて類似表現辞書格納部23に格納されている文字列を検索する。以下、ステップS13において検索された文字列を類似文字列と称する。
次に、類似表現検索部31は、対象エントリを構成する修正対象文に含まれる抽出文字列(ステップS12において抽出された品詞が名詞である文字列)を類似文字列(抽出文字列の類義語)に置き換える処理を実行する(ステップS14)。以下、ステップS14において抽出文字列を類似文字列に置き換えることによって得られる修正対象文を置換修正対象文と称する。
類似表現検索部31は、置換修正対象文(修正前の表現)を、文書チェック辞書格納部22から検索する(ステップS15)。換言すれば、類似表現検索部31は、置換修正対象文を修正対象文とするエントリを、文書チェック辞書格納部22から検索する。
類似表現検索部31は、置換修正対象文が文書チェック辞書格納部22(から検索された(つまり、置換修正対象文が修正対象文として文書チェック辞書格納部22に存在する)場合、当該置換修正対象文から構成されるエントリを類似エントリとして特定する(ステップS16)。
このステップS16において特定された類似エントリは、類似エントリ検索処理における検索結果として類似エントリ集約部32に渡される。
上記したように図6に示す処理によって、類似表現検索部31は、対象エントリに類似する類似エントリを文書チェック辞書格納部22から検索することができる。
以下、上述した図3および図4を用いて、本実施形態に係る辞書編集装置30の動作について具体的に説明する。
まず、類似表現検索部31は、文書チェック辞書格納部22に格納されている複数のエントリの中から1つのエントリを取り出す。ここでは、上述した図3に示す文書チェック辞書格納部22に格納(登録)されているエントリ221が取り出されたものとする。以下、ここで取り出されたエントリ221を対象エントリ221とする。なお、対象エントリ221は、修正対象文「本をかいていする」および修正候補文「本を改訂する」によって構成される。
次に、類似表現検索部31は、対象エントリ221と類似するエントリ(類似エントリ)を検索する類似エントリ検索処理を実行する。
この類似エントリ検索処理においては、類似表現検索部31は、対象エントリ221を構成する修正対象文および修正候補文を形態素解析する。これにより、類似表現検索部31は、対象エントリ221を構成する修正対象文および修正候補文に含まれる文字列(品詞が名詞である文字列)のうち、当該修正対象文および修正候補文において共通に出現する文字列を抽出する。つまり、類似表現検索部31は、修正対象文および修正候補文の間において修正されていない文字列を抽出する。
ここで、対象エントリ221を構成する修正対象文は「本をかいていする」であり、当該対象エントリ221を構成する修正候補文は「本をかいていする」である。したがって、対象エントリ221を構成する修正対象文および修正候補文に含まれる品詞が名詞である文字列のうち当該修正対象文および修正候補文おいて共通に出現する文字列は、「本」である。
よって、類似表現検索部31は、対象エントリ221に対する形態素解析結果から文字列「本」を抽出する。以下、ここで抽出された文字列(文字列「本」)を抽出文字列とする。
次に、類似表現検索部31は、抽出文字列「本」の類義語(つまり、抽出文字列「本」と類似する文字列)を類似表現辞書格納部23から検索する。
上述した図4に示す類似表現辞書格納部23の例を用いて説明すると、類似表現辞書格納部23には、「本」、「書物」、「書籍」、「図書」、「蔵書」および「テキスト」が対応づけて格納されている。
したがって、類似表現検索部31は、抽出文字列「本」の類義語として文字列「書物」、「書籍」、「図書」、「蔵書」および「テキスト」を類似表現辞書格納部23から検索する。以下、ここで検索された文字列(文字列「書物」、「書籍」、「図書」、「蔵書」および「テキスト」)を類似文字列とする。
次に、類似表現検索部31は、対象エントリ221を構成する修正対象文に含まれる抽出文字列を類似文字列に置き換える処理を実行する。
ここでは、対象エントリ221を構成する修正対象文は「本をかいていする」であり、抽出文字列は「本」であり、類似文字列は「書物」、「書籍」、「図書」、「蔵書」および「テキスト」である。
この場合、対象エントリ221を構成する修正対象文「本をかいていする」の抽出文字列「本」を類似文字列「書物」、「書籍」、「図書」、「蔵書」および「テキスト」に置き換えることによって得られる修正対象文は、「書物をかいていする」、「書籍をかいていする」、「図書をかいていする」、「蔵書をかいていする」および「テキストをかいていする」である。以下、抽出文字列を類似文字列に置き換えることによって得られる修正対象文(「書物をかいていする」、「書籍をかいていする」、「図書をかいていする」、「蔵書をかいていする」および「テキストをかいていする」)を置換修正対象文とする。
次に、類似表現検索部31は、置換修正対象文(から構成されるエントリ)を文書チェック辞書格納部22から検索する。
上述した図3に示す文書チェック辞書格納部22の例を用いて説明すると、文書チェック辞書格納部22には、エントリ222を構成する修正対象文として置換修正対象文「テキストをかいていする」が存在する。
したがって、類似表現検索部31は、置換修正対象文「テキストをかいていする」から構成されるエントリ222を類似エントリとして特定する。このエントリ222は、類似エントリ検索処理における検索結果として類似エントリ集約部32に渡される。
以下、類似エントリ集約部32に渡されたエントリ222を類似エントリ222とする。なお、類似エントリ222は、修正対象文「テキストをかいていする」および修正候補文「テキストを改訂する」から構成される。
次に、類似エントリ集約部32は、対象エントリ221および類似エントリ222(の2つのエントリ)を1つのエントリに集約する。対象エントリ221および類似エントリ222を1つのエントリに集約する場合、上述したように正規表現が用いられるものとする。
ここで、対象エントリ221および類似エントリ222を1つのエントリに集約する場合について具体的に説明する。
まず、対象エントリ221を構成する修正対象文および類似エントリ222を構成する修正対象文のそれぞれに含まれる互いに類似する文字列を正規表現で表すことによって、当該2つの修正対象文を1つの修正対象文に集約する。
ここで、対象エントリ221を構成する修正対象文は「本をかいていする」であり、類似エントリ222を構成する修正対象文は「テキストをかいていする」である。
この場合、対象エントリ221を構成する修正対象文および類似エントリ222を構成する修正対象文のそれぞれに含まれる互いに類似する文字列は、「本」および「テキスト」である。
したがって、対象エントリ221を構成する修正対象文「本をかいていする」および類似エントリ222を構成する修正対象文「テキストをかいていする」は、正規表現を用いて1つの修正対象文「(本|テキスト)をかいていする」に集約される。
同様に、対象エントリ221を構成する修正候補文および類似エントリ222を構成する修正候補文のそれぞれに含まれる互いに類似する文字列を正規表現で表すことによって、当該2つの修正候補文を1つの修正候補文に集約する。
ここで、対象エントリ221を構成する修正候補文は「本を改訂する」であり、類似エントリ222を構成する修正候補文は「テキストを改訂する」である。
この場合、対象エントリ221を構成する修正候補文および類似エントリ222を構成する修正候補文のそれぞれに含まれる互いに類似する文字列は、「本」および「テキスト」である。
したがって、対象エントリ221を構成する修正候補文「本を改訂する」および類似エントリ222を構成する修正候補文「テキストを改訂する」は、正規表現を用いて1つの修正対象文「(本|テキスト)を改訂する」に集約される。
これにより、対象エントリおよび類似エントリは、上記したように集約された1つの修正対象文「(本|テキスト)をかいていする」および集約された1つの修正候補文「(本|テキスト)を改訂する」から構成される1つのエントリに集約される。以下、ここで集約された1つのエントリを集約エントリと称する。
次に、辞書編集部33は、集約エントリを文書チェック辞書格納部22に登録する。また、辞書編集部33は、文書チェック辞書格納部22から上記した対象エントリ221および類似エントリ222を削除する。
ここで、図7は、上記した辞書編集装置30による処理(図5に示す処理)が実行された後の文書チェック辞書格納部22のデータ構造の一例を示す。
つまり、上記したように辞書編集装置30による処理が実行されることによって、上記したように、図3に示すエントリ221および222は文書チェック辞書格納部22から削除され、代わりに、図7に示すエントリ223が文書チェック辞書格納部22に登録される。
上記したように本実施形態においては、対象エントリ(情報)と類似する類似エントリを文書チェック辞書格納部22から検索し、当該対象エントリおよび類似エントリを例えば正規表現を用いて1つのエントリに集約し、当該集約された1つのエントリが文書チェック辞書格納部22に格納され、当該対象エントリおよび類似エントリは当該文書チェック辞書格納部22から削除される。
これにより、本実施形態においては、文書チェック辞書格納部22に格納(登録)されているエントリの内容を損なうことなく、当該文書チェック辞書格納部22におけるエントリ数を削減することが可能となるため、当該エントリ数が多い場合と比較して、ユーザは当該文書チェック辞書に対する編集を容易にすることができる。また、本実施形態においては、文書チェック辞書格納部22におけるエントリ数を削減することによって当該文書チェック辞書格納部22におけるエントリ間の不整合の発生を抑制することが可能となる。
[第2の実施形態]
次に、図8を参照して、本発明の第2の実施形態について説明する。図8は、本実施形態に係る辞書編集装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
また、本実施形態に係る辞書編集装置のハードウェア構成は前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。
本実施形態においては、対象エントリおよび類似エントリが1つのエントリに集約された場合に、当該集約された1つのエントリを文書チェック辞書格納部22に登録するか否かをユーザに問い合せる点が、前述した第1の実施形態とは異なる。
図8に示すように、本実施形態に係る辞書編集装置300は、問い合わせ部301および辞書編集部302を含む。本実施形態においては、これらの各部301および302は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
問い合わせ部301は、類似エントリ集約部32によって集約された1つのエントリを文書チェック辞書格納部22に登録すべきか否かをユーザに問い合わせる機能を有する。
辞書編集部33は、問い合わせ部301による問い合わせの結果に応じて、類似エントリ集約部32によって集約された1つのエントリを文書チェック辞書格納部22に登録するか否かを決定する。
次に、図9のフローチャートを参照して、本実施形態に係る辞書編集装置300の処理手順について説明する。
まず、前述した図5に示すステップS1〜ステップS3の処理に相当するステップS21〜ステップS23の処理が実行される。
以下、ステップS21において取り出されたエントリを対象エントリ、ステップS22(の類似エントリ検索処理)において検索されたエントリを類似エントリ、ステップS23において集約された1つのエントリを集約エントリと称する。
次に、問い合わせ部301は、集約エントリを文書チェック辞書格納部22に登録すべきか否かをユーザに問い合せる処理を実行する(ステップS24)。
この場合、問い合わせ部301は、例えば対象エントリ、類似エントリおよび集約エントリをユーザに対して提示する。
ユーザは、提示された対象エントリ、類似エントリおよび集約エントリを確認することによって、当該集約エントリを文書チェック辞書格納部22に登録すべきか否かを判断することができる。ユーザは、例えば辞書編集装置300を操作することによって、問い合わせ部301による問い合わせの結果として集約エントリを文書チェック辞書格納部22に登録すべき旨の応答または当該集約エントリを文書チェック辞書格納部22に登録すべきでない旨の応答を返すことができる。
次に、辞書編集部302は、問い合わせ部301による問い合わせの結果に応じて集約エントリを文書チェック辞書格納部22に登録すべきか否かを判定する(ステップS25)。
辞書編集部302は、問い合わせの結果として文書チェック辞書格納部22に登録すべき旨の応答がユーザから返された場合には、集約エントリを文書チェック辞書格納部22に登録すべきであると判定する。一方、辞書編集部302は、問い合わせの結果として文書チェック辞書格納部22に登録すべきでない旨の応答が返された場合には、集約エントリを文書チェック辞書格納部22に登録すべきでないと判定する。
集約エントリを文書チェック辞書格納部22に登録すべきであると辞書編集部302によって判定された場合(ステップS25のYES)、前述した図5に示すステップS4〜ステップS6の処理に相当するステップS26〜ステップS28の処理が実行される。
一方、集約エントリを文書チェック辞書格納部22に登録すべきでないと辞書編集部302によって判定された場合(ステップS25のNO)、ステップS26およびステップS27の処理は実行されず、ステップS28の処理が実行される。
つまり、この場合、集約エントリは文書チェック辞書格納部22に登録されず、対象エントリおよび類似エントリは文書チェック辞書格納部22から削除されない。
上記したように本実施形態においては、集約エントリを文書チェック辞書格納部22に登録すべきか否かをユーザに対して問い合わせ、当該問い合わせの結果に応じて当該集約エントリが文書チェック辞書格納部22に登録されるか否かが決定(判定)される。
これにより、本実施形態においては、前述した第1の実施形態と比較して、例えば辞書編集装置300が誤って集約エントリを登録し、また、対象エントリおよび類似エントリを削除してしまうことを防ぐことが可能となる。
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
10…コンピュータ、20…外部記憶装置、22…文書チェック辞書格納部、23…類似表現辞書格納部、30,300…辞書編集装置、31…類似表現検索部、32…類似エントリ集約部、33,302…辞書編集部、301…問い合わせ部。

Claims (5)

  1. 文字列を含む修正対象文および当該修正対象文の修正候補となる修正候補文から構成される複数のエントリ情報を格納する文書チェック辞書格納手段と、
    互いに類似する複数の文字列を予め格納する類似表現辞書格納手段と、
    前記文書チェック辞書格納手段に格納されているエントリ情報を取り出す取り出し手段と、
    前記取り出されたエントリ情報を構成する修正対象文に含まれる文字列と類似する文字列を前記類似表現辞書格納手段から取得する取得手段と、
    前記取り出されたエントリ情報を構成する修正対象文に含まれる文字列を前記取得された文字列に置き換えることによって得られる修正対象文から構成されるエントリ情報を、前記文書チェック辞書格納手段から検索する検索手段と、
    前記取り出されたエントリ情報と前記検索されたエントリ情報とを1つのエントリ情報に集約する集約手段と、
    前記集約された1つのエントリ情報を前記文書チェック辞書格納手段に登録し、前記1つのエントリ情報に集約された前記取り出されたエントリ情報および前記検索されたエントリ情報を前記文書チェック辞書格納手段から削除する辞書編集手段と
    を具備することを特徴とする辞書編集装置。
  2. 前記集約手段は、
    前記取り出されたエントリ情報を構成する修正対象文および前記検索されたエントリ情報を構成する修正対象文を1つの修正対象文に集約する修正対象文集約手段と、
    前記取り出されたエントリ情報を構成する修正候補文および前記検索されたエントリ情報を構成する修正候補文を1つの修正候補文に集約する修正候補文集約手段と
    を含み、
    前記取り出されたエントリ情報と前記検索されたエントリ情報とを、前記修正対象文集約手段によって集約された1つの修正対象文および前記修正候補文集約手段によって集約された1つの修正候補文から構成される1つのエントリ情報に集約する
    ことを特徴とする請求項1記載の辞書編集装置。
  3. 前記修正対象文集約手段は、前記取り出されたエントリ情報を構成する修正対象文および前記検索されたエントリ情報を構成する修正対象文に含まれる文字列を正規表現で表すことによって1つの修正対象文に集約し、
    前記修正候補文集約手段は、前記取り出されたエントリ情報を構成する修正候補文および前記検索されたエントリ情報を構成する修正候補文に含まれる文字列を正規表現で表すことによって1つの修正候補文に集約する
    ことを特徴とする請求項2記載の辞書編集装置。
  4. 前記集約された1つのエントリ情報を前記文書チェック辞書格納手段に登録すべきかをユーザに問い合わせる問い合わせ手段を更に具備し、
    前記辞書編集手段は、前記問い合わせ手段による問い合わせの結果に応じて、前記集約された1つのエントリ情報を前記文書チェック辞書格納手段に登録し、前記1つのエントリに情報に集約された前記取り出されたエントリ情報および前記検索されたエントリ情報を前記文書辞書格納手段から削除する
    ことを特徴とする請求項1記載の辞書編集装置。
  5. 文字列を含む修正対象文および当該修正対象文の修正候補となる修正候補文から構成される複数のエントリ情報を格納する文書チェック辞書格納手段と互いに類似する複数の文字列を予め格納する類似表現辞書格納手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される辞書編集装置において、前記コンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    前記文書チェック辞書格納手段に格納されているエントリ情報を取り出すステップと、
    前記取り出されたエントリ情報を構成する修正対象文に含まれる文字列と類似する文字列を前記類似表現辞書格納手段から取得するステップと、
    前記取り出されたエントリ情報を構成する修正対象文に含まれる文字列を前記取得された文字列に置き換えることによって得られる修正対象文から構成されるエントリ情報を、前記文書チェック辞書格納手段から検索するステップと、
    前記取り出されたエントリ情報と前記検索されたエントリ情報とを1つのエントリ情報に集約するステップと、
    前記集約された1つのエントリ情報を前記文書チェック辞書格納手段に登録し、前記1つのエントリ情報に集約された前記取り出されたエントリ情報および前記検索されたエントリ情報を前記文書チェック辞書格納手段から削除するステップと
    を実行させるためのプログラム。
JP2010088051A 2010-04-06 2010-04-06 辞書編集装置およびプログラム Withdrawn JP2011221662A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010088051A JP2011221662A (ja) 2010-04-06 2010-04-06 辞書編集装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010088051A JP2011221662A (ja) 2010-04-06 2010-04-06 辞書編集装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2011221662A true JP2011221662A (ja) 2011-11-04

Family

ID=45038602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010088051A Withdrawn JP2011221662A (ja) 2010-04-06 2010-04-06 辞書編集装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2011221662A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9128923B2 (en) 2011-06-08 2015-09-08 Kabushiki Kaisha Toshiba Orthographical variant detection apparatus and orthographical variant detection method
KR102078505B1 (ko) * 2019-05-28 2020-02-17 주식회사 에이플에이디 기사 생성 시스템 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9128923B2 (en) 2011-06-08 2015-09-08 Kabushiki Kaisha Toshiba Orthographical variant detection apparatus and orthographical variant detection method
KR102078505B1 (ko) * 2019-05-28 2020-02-17 주식회사 에이플에이디 기사 생성 시스템 및 그 방법

Similar Documents

Publication Publication Date Title
JP5437557B2 (ja) 検索処理方法及び検索システム
US10169354B2 (en) Indexing and search query processing
US8005819B2 (en) Indexing and searching product identifiers
US20080263032A1 (en) Unstructured and semistructured document processing and searching
CN111831785A (zh) 敏感词检测方法、装置、计算机设备及存储介质
JP4237813B2 (ja) 構造化文書管理システム
JP2011221662A (ja) 辞書編集装置およびプログラム
JP4439496B2 (ja) 検索処理装置及びプログラム
JP4734400B2 (ja) 文書検索装置およびプログラム
JP4091586B2 (ja) 構造化文書管理システム、索引構築方法及びプログラム
JP7045970B2 (ja) リスク特定装置、リスク特定方法、およびプログラム
JP4646289B2 (ja) データベースマネジメントシステム
JP4521413B2 (ja) データベース管理システム及びプログラム
JP4304226B2 (ja) 構造化文書管理システム、構造化文書管理方法及びプログラム
JP4304146B2 (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP4160627B2 (ja) 構造化文書管理システム及びプログラム
JP7272540B2 (ja) 情報提供システム、情報提供方法、及びデータ構造
JP2002108887A (ja) 文書検索装置、その装置へのキーワード追加方法、文書検索方法及びコンピュータ読み取り可能な記憶媒体
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP5849675B2 (ja) 文字入力用のプログラムおよび情報処理装置
JP2004318328A (ja) 情報検索方法
JP2008084132A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP4255253B2 (ja) 文書検索システム及び方法
JP2014229069A (ja) 関連性判定システム、方法、およびプログラム
JP2000293527A (ja) Html文書検索システムへのデータ登録システム、方法および記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130702