JP6551026B2

JP6551026B2 - 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法

Info

Publication number: JP6551026B2
Application number: JP2015154917A
Authority: JP
Inventors: 侑吾西川
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2015-08-05
Filing date: 2015-08-05
Publication date: 2019-07-31
Anticipated expiration: 2035-08-05
Also published as: JP2017033434A

Description

本発明は、候補語評価装置、候補語評価システム、プログラム及び候補語評価方法に関する。

入力として与えられた日本語文に含まれる文字認識誤りを訂正する装置が開示されている（例えば、特許文献１）。

特許第４０６６５０７号公報

光学的文字認識装置（ＯＣＲ）を使用して印刷された文字を読み取った場合、誤った認識がされることで、誤ったテキストが出力されることがある。特許文献１には、誤ったテキストを訂正するための一手法が提示されている。
他方、テキストの分析等を行う際には、誤ったテキストを、正しいテキストと同様に扱いたいというニーズがある。

そこで、本発明は、入力語に類似する候補語を抽出可能な候補語評価装置、候補語評価システム、プログラム及び候補語評価方法を提供することを目的とする。

本発明は、以下のような解決手段により、前記課題を解決する。
第１の発明は、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得手段と、前記付加語取得手段により取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得手段と、を備え、前記置換候補語取得手段は、前記付加語取得手段により取得された全ての付加語に対して処理を行い、前記置換候補語取得手段により全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第１スコアを算出する第１スコア算出手段を備える、候補語評価装置である。
第２の発明は、第１の発明の候補語評価装置において、前記入力語を構成する文字のうちの少なくとも１文字を含む語を、前記入力語の文字共有候補語として前記テキストデータベースから抽出し、前記入力語と抽出した前記文字共有候補語との編集距離及び前記文字共有候補語の文字列長を用いて、前記文字共有候補語の前記入力語に対する編集距離による類似度を示す第２スコアを算出する第２スコア算出手段と、前記付加語による類似度と前記編集距離による類似度とを用いて候補語の前記入力語に対する類似度を示す候補スコアを、前記第１スコア算出手段により算出された前記一の置換候補語の前記第１スコアと前記一の文字共有候補語の前記第２スコアとを用いて算出する候補スコア算出手段と、を備えること、を特徴とする候補語評価装置である。
第３の発明は、第２の発明の候補語評価装置において、前記候補スコア算出手段により算出された前記候補スコアと、前記候補語とを表示する候補語表示手段を備えること、を特徴とする候補語評価装置である。
第４の発明は、第１の発明から第３の発明までのいずれかの候補語評価装置において、前記テキストデータベースは、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶していること、を特徴とする候補語評価装置である。
第５の発明は、第４の発明の候補語評価装置において、前記テキストデータベースは、品目名及びその金額を含む文字が印刷されたレシートを、光学式文字読取装置によって光学的に読み取ることで得られた前記テキストデータを記憶していること、を特徴とする候補語評価装置である。
第６の発明は、第１の発明から第５の発明までのいずれかの候補語評価装置と、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したテキストデータベースと、を備える候補語評価システムである。
第７の発明は、第１の発明から第５の発明までのいずれかの候補語評価装置としてコンピュータを機能させるためのプログラムである。
第８の発明は、コンピュータが、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得ステップと、コンピュータが、前記付加語取得ステップにより取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得ステップと、を含み、前記置換候補語取得ステップは、前記付加語取得ステップにより取得された全ての付加語に対して処理を行い、コンピュータが、前記置換候補語取得ステップにより全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第１スコアを算出する第１スコア算出ステップをさらに含む、候補語評価方法である。

本発明によれば、入力語に類似する候補語を抽出可能な候補語評価装置、候補語評価システム、プログラム及び候補語評価方法を提供することができる。

本実施形態に係る候補語評価システムの機能ブロックを示す図である。本実施形態に係る候補語評価サーバでの候補語抽出処理を示すフローチャートである。本実施形態に係る置換候補語抽出処理及び文字共有候補語抽出処理の概念図である。本実施形態に係る候補語評価サーバでの置換候補語抽出処理を示すフローチャートである。本実施形態に係る候補語評価サーバでの置換候補語抽出処理を説明するための図である。本実施形態に係る候補語評価サーバでの置換候補語抽出処理を説明するための図である。本実施形態に係る候補語評価サーバでの文字共有候補語抽出処理を示すフローチャートである。本実施形態に係る候補語評価サーバでの文字共有候補語抽出処理を説明するための図である。本実施形態に係る候補語評価サーバで出力する候補語リストの例を示す図である。

以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
（実施形態）
＜候補語評価システム１００の全体構成＞
図１は、本実施形態に係る候補語評価システム１００の機能ブロックを示す図である。
候補語評価システム１００は、候補語評価サーバ１（候補語評価装置）と、テキストＤＢ（データベース）４と、端末８とが、通信ネットワークＮｗを介して接続されている。
候補語評価システム１００は、例えば、端末８から入力された検索語（入力語）に類似する候補語を、テキストＤＢ４から抽出して出力するシステムである。

＜候補語評価サーバ１＞
候補語評価サーバ１は、検索語を受け付けて、その検索語に類似する候補語をテキストＤＢ４から抽出して出力する処理を行うサーバある。
候補語評価サーバ１は、制御部１０と、記憶部２０と、通信インタフェース部２９とを備える。
制御部１０は、候補語評価サーバ１の全体を制御するＣＰＵ（中央処理装置）である。制御部１０は、記憶部２０に記憶されているＯＳ（オペレーティングシステム）や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部１０は、検索語受付部１１と、置換候補語評価部１２と、文字共有候補語評価部１３（第２スコア算出手段）と、候補スコア算出部１５（候補スコア算出手段）と、候補語表示部１７（候補語表示手段）とを備える。

検索語受付部１１は、端末８が送信した検索語を受け付ける制御部である。
置換候補語評価部１２は、置換候補語を抽出して評価する制御部である。
置換候補語評価部１２は、付加語取得部１２ａ（付加語取得手段）と、置換候補語取得部１２ｂ（置換候補語取得手段）と、置換スコア算出部１２ｃ（第１スコア算出手段）とを備える。
付加語取得部１２ａは、検索語を含む複数の語を、テキストＤＢ４から抽出し、各々の語から検索語を除いた付加語を、その付加位置（前又は後）と共に取得する。
置換候補語取得部１２ｂは、付加語をその付加位置に有する語であって、検索語を除く語を、テキストＤＢ４から抽出し、抽出した語から付加語を除いた語を、置換候補語として取得する。
置換スコア算出部１２ｃは、検索語に対する置換候補語の付加語による類似度を示す置換スコア（第１スコア）を算出する。

文字共有候補語評価部１３は、文字共有候補語を抽出して評価する制御部である。
文字共有候補語評価部１３は、文字共有候補語取得部１３ａと、編集スコア算出部１３ｂとを備える。
文字共有候補語取得部１３ａは、検索語を構成する文字のうち少なくとも１文字を含む語を、文字共有候補語としてテキストＤＢ４から抽出する。
編集スコア算出部１３ｂは、検索語と、抽出した文字共有候補語との編集距離及び文字列長を用いて、検索語に対する文字共有候補語の編集距離による類似度を示す編集スコア（第２スコア）を算出する。

候補スコア算出部１５は、置換候補語評価部１２が算出した置換スコアと、文字共有候補語評価部１３が算出した編集スコアとに基づき、置換候補語かつ文字共有候補語である候補語の候補スコアを算出する制御部である。
候補語表示部１７は、候補スコア算出部１５が算出した候補スコアと、候補語とを、端末８に出力する制御部である。
なお、これらの各機能の詳細については、後述する。

記憶部２０は、候補語評価サーバ１の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
なお、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、候補語評価サーバ１は、制御部１０、記憶部２０等を備えた情報処理装置であり、コンピュータの概念に含まれる。
記憶部２０は、プログラム記憶部２１と、検索語記憶部２２とを備える。
プログラム記憶部２１は、プログラムを記憶する記憶領域である。プログラム記憶部２１は、候補語評価プログラム２１ａ（プログラム）を記憶する。
候補語評価プログラム２１ａは、制御部１０の各機能を実行するためのプログラムである。
検索語記憶部２２は、検索語受付部１１が受け付けた検索語を記憶する記憶領域である。
通信インタフェース部２９は、通信ネットワークＮｗを介してテキストＤＢ４や端末８との通信を行うためのインタフェース部である。

なお、候補語評価サーバ１を構成するハードウェアの数に制限はない。必要に応じて、１又は複数で構成してもよい。また、候補語評価サーバ１のハードウェアは、必要に応じてＷｅｂサーバ、ＤＢ（データベース）サーバ、アプリケーションサーバ等の各種サーバを含んで構成してもよく、１台のサーバで構成しても、それぞれ別のサーバで構成してもよい。

＜テキストＤＢ４＞
テキストＤＢ４は、手書き文字及び印刷文字の少なくとも一方を、光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したＤＢである。
この例では、テキストＤＢ４は、品目名に関するレシートデータを記憶するものとして説明する。例えば、スマートフォン等の端末（図示せず）のレシート読取エンジンにより、レシートを読み取ってテキストデータにし、端末からテキストＤＢ４にテキストデータを記憶させることで、テキストＤＢ４が構築される。

テキストＤＢ４には、品目名のテキストデータが記憶されている。そして、品目名のテキストデータは、小売店等の店舗のレジスタの特性によって、１つの商品に対して、複数の品目名が設定されうるものである。レジスタの特性とは、漢字の使用可否や、印字する品目名の文字列長等である。
具体的には、ウーロン茶の商品に関して、「ウーロンチャ」、「烏龍茶」、「烏竜茶」等の表記の違いがある。このように、１つの商品であっても、小売店での登録の違いによって、複数の表現があり得る。また、端末のレシート読取エンジンの誤認識によって、「タ」と「ク」、「゛」と「゜」、「に」と「１こ」等の文字のゆらぎが生じる場合がある。

＜端末８＞
端末８は、テキストデータを分析するユーザが使用する端末である。端末８は、例えば、パーソナルコンピュータ（ＰＣ）や、タブレット端末等で構成することができる。図示していないが、端末８は、制御部、記憶部、表示部等を備える。
通信ネットワークＮｗは、候補語評価サーバ１と、テキストＤＢ４と、端末８との間のネットワークであり、例えば、インターネット回線等の通信網である。

＜候補語抽出処理＞
次に、候補語評価サーバ１で行う処理について説明する。
図２は、本実施形態に係る候補語評価サーバ１での候補語抽出処理を示すフローチャートである。
図３は、本実施形態に係る置換候補語抽出処理及び文字共有候補語抽出処理の概念図である。
図４は、本実施形態に係る候補語評価サーバ１での置換候補語抽出処理を示すフローチャートである。
図５及び図６は、本実施形態に係る置換候補語抽出処理を説明するための図である。
図７は、本実施形態に係る候補語評価サーバ１での文字共有候補語抽出処理を示すフローチャートである。
図８は、本実施形態に係る文字共有候補語抽出処理を説明するための図である。
図９は、本実施形態に係る候補語評価サーバ１で出力する候補語リストの例を示す図である。

図２のステップＳ（以下、単に「Ｓ」という。）１０において、候補語評価サーバ１の制御部１０（検索語受付部１１）は、検索語を受け付ける。例えば、端末８からユーザが検索語として「ポテトチップス」を入力することで、検索語受付部１１は、「ポテトチップス」からなるテキストデータを受け付ける。
Ｓ１１において、制御部１０（置換候補語評価部１２）は、置換候補語抽出処理を行う。
置換候補語抽出処理は、図３（Ａ）に示すように、検索語３５の前後に付く付加語３６を含む語である置換候補語３７をテキストＤＢ４から抽出して、検索語３５に対する置換候補語３７の付加語３６による類似度を評価する処理である。

ここで、置換候補語抽出処理の詳細について、図４に基づき説明する。
図４のＳ２０において、制御部１０（付加語取得部１２ａ）は、テキストＤＢ４を参照して、検索語３５を前後に含むテキストデータを取得する。
Ｓ２１において、制御部１０（付加語取得部１２ａ）は、テキストＤＢ４を参照して、取得したテキストデータの件数を集計する。
Ｓ２２において、制御部１０（付加語取得部１２ａ）は、件数の多い順にソートして、上位Ｎ個のテキストデータを選定する。
図５（Ａ）は、選定テーブル３０の例を示す。選定テーブル３０は、検索語３５が「ポテトチップス」を含むテキストデータと、テキストＤＢ４に収録されたテキストデータの件数とを対応付けて記憶する。選定テーブル３０は、件数が多い順にソートされ、上位Ｎ個のテキストデータを選定可能に記憶されている。

図４に戻り、Ｓ２３において、制御部１０（付加語取得部１２ａ）は、選定したテキストデータから検索語３５を除いた語である付加語３６を抽出する。
図５（Ｂ）は、付加語テーブル３１の例を示す。付加語テーブル３１は、付加語３６と、付加語３６の配置位置とを対応付けて記憶する。付加語３６は、検索語３５である「ポテトチップス」を除く語である。

図４に戻り、Ｓ２４において、制御部１０（置換候補語取得部１２ｂ）は、付加語テーブル３１から１つの付加語３６を取得する。
Ｓ２５において、制御部１０（置換候補語取得部１２ｂ）は、テキストＤＢ４から付加語３６を含むテキストデータを取得する。

Ｓ２６において、制御部１０（置換候補語取得部１２ｂ）は、取得したテキストデータから付加語３６を除いた語である置換候補語３７を取得する。
図５（Ｃ）は、に示す置換候補語テーブル３２Ａは、付加語３６である「うすしお」を、配置位置「後」に有するテキストデータと、付加語３６を除いた置換候補語３７とを対応付けて記憶している。置換候補語テーブル３２Ａに示すように、付加語３６である「うすしお」を「後」に有する様々な置換候補語３７を取得できる。例えば、置換候補語３７が「フライドポテト」は、「ポテトチップス」とは異なる品目である。また、置換候補語３７が「ポテチ」は、「ポテトチップス」の略語である。さらに、置換候補語３７が「ポテトチッブス」は、「ポテトチップス」の「プ」が、「ブ」に誤認識されたものである。

図４に戻り、Ｓ２７において、制御部１０は、全ての付加語３６（Ｎ個）について処理をしたか否かを判断する。全ての付加語３６（Ｎ個）について処理をした場合（Ｓ２７：ＹＥＳ）には、制御部１０は、処理をＳ２８に移す。他方、全ての付加語３６（Ｎ個）について処理をしていない場合（Ｓ２７：ＮＯ）には、制御部１０は、処理をＳ２４に移し、未処理の付加語３６を取得して、置換候補語３７を取得する処理を繰り返す。
制御部１０は、１つの付加語３６から置換候補語３７を取得する処理を繰り返すことで、図５（Ｃ）に示すように、Ｎ個の置換候補語テーブル３２（３２Ａ，３２Ｂ，・・・）を作成する。

Ｓ２８において、制御部１０（置換スコア算出部１２ｃ）は、置換候補語テーブル３２（３２Ａ，３２Ｂ，・・・）を参照し、置換候補語３７ごとに付加語３６の数を集計する。具体的には、制御部１０は、Ｎ個の置換候補語テーブル３２（３２Ａ，３２Ｂ，・・・）から１つの置換候補語３７を含むテーブル数を集計することで、その置換候補語３７の付加語３６の数にすることができる。
例えば、置換候補語３７である「ポテトチッブス」が、付加語３６が「うすしお」と付加語３６が「無添加」との置換候補語テーブル３２に含まれる場合、置換候補語３７が「ポテトチッブス」の付加語３６の数は、２になる。
Ｓ２９において、制御部１０（置換スコア算出部１２ｃ）は、集計した付加語３６の数により、置換スコアを算出する。検索語３５をｑとし、置換候補語３７をｗ１とし、ｗ１の付加語３６の数をｍとし、付加語３６の総数をＮとした場合、置換スコアｓｉｍ＿Ｐｔ（ｑ，ｗ１）は、次の式で算出できる。

図６は、置換スコアテーブル３３の例を示す。置換スコアテーブル３３は、置換候補語３７と、付加語３６の数と、置換スコアとを対応付けて記憶している。この例では、Ｎを２０としている。置換候補語３７が「ポテトチッブス」は、２０個の付加語３６のうち、１９個の付加語３６が付加されていることを示す。
図４に戻り、制御部１０は、本処理を終了し、処理を図２に移す。

置換スコアは、その数値が高いほど、検索語３５と似たような使用がされているため、検索語３５と、置換候補語３７とを置換しても同じものであるという度合いが高いことを示す。よって、置換スコアが高いほど、検索語３５と、置換候補語３７との登場の仕方が類似したものであると言える。つまり、置換スコアが高いものは、同じ商品での異なる言い回しによるものを含む可能性が高い。異なる言い回しは、上述したようにレジスタの特性の他、商品名の略語を含む。よって、検索語３５の文字列長が長いものであるほど、置換スコアが高い置換候補語３７として、様々な種類のものが取得できる。

図２に戻り、Ｓ１２において、制御部１０（文字共有候補語評価部１３）は、文字共有候補語抽出処理を行う。
文字共有候補語抽出処理は、図３（Ｂ）に示すように、検索語３５の文字と同じ文字を１文字以上含む文字共有候補語３８をテキストＤＢ４から抽出して、検索語３５に対する文字共有候補語３８の編集距離による類似度を評価する処理である。

ここで、文字共有候補語抽出処理の詳細について、図７に基づき説明する。
図７のＳ４０において、制御部１０（文字共有候補語取得部１３ａ）は、テキストＤＢ４から検索語３５と同じ文字を１文字以上含むテキストデータを抽出する。
Ｓ４１において、制御部１０（文字共有候補語取得部１３ａ）は、検索語３５と同じテキストデータを除いた語を、文字共有候補語３８とする。
図８は、編集スコアテーブル５０の例を示す。Ｓ４１の処理によって、文字共有候補語部５０ａに格納される文字共有候補語３８が抽出される。文字共有候補語３８は、検索語３５である「ポテトチップス」を構成する文字「ポ」、「テ」、「ト」、「チ」、「ッ」、「プ」、「ス」のうちのいずれか１つを少なくとも含むテキストデータである。
図７に戻り、Ｓ４２において、制御部１０（編集スコア算出部１３ｂ）は、１つの文字共有候補語３８を取得する。

Ｓ４３において、制御部１０（編集スコア算出部１３ｂ）は、検索語３５と、文字共有候補語３８との編集距離を算出する。文字共有候補語３８が検索語３５にどれくらい類似する語であるかの１つの指標として、編集距離を用いる。編集距離は、文字共有候補語３８から検索語３５に変換する際に、文字共有候補語３８の文字列から文字を挿入、削除、置換の操作を行うが、その最小操作数である。
図８に示す文字共有候補語３８が「ポテチ」は、「テ」と「チ」との間に「ト」の１文字を挿入し、「チ」の後ろに「ッ」、「プ」、「ス」の３文字を挿入することで、「ポテトチップス」に変換できる。よって、文字共有候補語３８が「ポテチ」の編集距離は、４である。

図７に戻り、Ｓ４４において、制御部１０（編集スコア算出部１３ｂ）は、検索語３５と文字共有候補語３８とのうちの最大文字列長を取得する。
上述した文字共有候補語３８が「ポテチ」は、文字列長が３であり、他方、検索語３５である「ポテトチップス」の文字列長が７であるので、最大文字列長は７である。また、文字共有候補語３８が「ポテトチップフ、」の場合には、文字列長が８であり、検索語３５の文字列長（７）の方が短いので、最大文字列長は８である。

Ｓ４５において、制御部１０（編集スコア算出部１３ｂ）は、文字列長と、編集距離とにより、文字共有候補語３８の編集スコアを算出する。検索語３５をｑとし、その文字列長をｌｅｎ（ｑ）とし、文字共有候補語３８をｗ２とし、その文字列長をｌｅｎ（ｗ２）とし、最大文字列長をｍａｘ（ｌｅｎ（ｑ），ｌｅｎ（ｗ２））とし、編集距離をＬＤ（ｑ，ｗ２）とした場合、編集スコアｓｉｍ＿ＬＤ（ｑ，ｗ２）は、次の式で算出できる。

図８に示す編集スコアテーブル５０は、文字共有候補語３８と、編集距離と、最大文字列長と、編集スコアとを対応付けて記憶している。編集スコアは、最大文字列長で除算することで、文字列長の長短によらないように正規化している。

図７に戻り、Ｓ４６において、制御部１０（文字共有候補語評価部１３）は、Ｓ４１で取得した全ての文字共有候補語３８について処理をしたか否かを判断する。全ての文字共有候補語３８について処理をした場合（Ｓ４６：ＹＥＳ）には、制御部１０は、本処理を終了し、処理を図２に移す。他方、全ての候補語について処理をしていない場合（Ｓ４６：ＮＯ）には、制御部１０は、処理をＳ４２に移し、未処理の文字共有候補語３８を取得して、文字共有候補語３８に対する編集スコア算出処理を繰り返す。
制御部１０は、全ての文字共有候補語３８について処理をすることで、編集スコアテーブル５０を、全ての項目にデータが入ったものにできる。

そして、編集スコアは、その数値が高いほど、検索語３５と文字共有候補語３８との語の構成に関する類似度が高いことを示す。つまり、編集スコアが高い文字共有候補語３８は、検索語３５と文字面が似ているものであり、文字の誤認識がされたものが高く算出される。

図２に戻り、Ｓ１３において、制御部１０（候補スコア算出部１５）は、検索語３５に対する候補語の候補スコアを算出する。候補語をｗとした場合、候補スコアｓｉｍ（ｑ，ｗ）は、以下の式で算出できる。

例えば、候補語「ポテトチッブス」の場合、置換スコアが０．９５であり（図６）、編集スコアが０．８５７である（図８）ので、候補スコアは、０．８１４になる。
また、候補語「トマト」の場合には、編集スコアが０．１４２であるが（図８）、置換候補語３７に含まれないため置換スコアが０である。よって、候補語「トマト」の候補スコアは、０である。
このように、置換候補語３７と文字共有候補語３８との一方にしか含まれない候補語に関しては、候補スコアが０になる。

Ｓ１４において、制御部１０（候補語表示部１７）は、候補語と候補リストとからなる候補語リスト６０を、端末８に対して出力することで、端末８に表示させる。
図９は、検索語３５である「ポテトチップス」に対する候補語リスト６０の例を示す。候補語リスト６０は、候補スコアの高い順にソートされている。ユーザは、候補語リスト６０を参照し、候補スコアが所定値以上の候補語を、検索語３５に類似したものとして抽出できる。そして、ユーザは、データ分析の際に、候補語を、検索語３５と同様に扱うことができる。

このように、本実施形態によれば、候補語評価サーバ１は、以下のような効果がある。
（１）検索語３５の前後に付加された付加語３６から置換候補語３７を抽出できる。また、置換候補語３７が検索語３５と同じ付加語３６を含む場合に、その付加語３６の数に応じて、検索語３５に対する置換候補語３７の付加語３６による類似度を、置換スコアとして算出できる。よって、付加語３６を用いて置換候補語３７を抽出し、置換候補語３７の検索語３５に対する付加語３６による類似度を、客観的に示すことができる。
類似度の高い置換候補語３７として、例えば、検索語３５の略語や、表記方法の違いによる語の違い（ひらがな、カタカナ、漢字等の表記違い等）を取得できる。

（２）検索語３５の文字を一部に含む文字共有候補語３８の検索語３５に対する編集距離の類似度を、編集距離及び文字列長によって算出し、付加語３６による候補語の類似度と、編集距離による候補語の類似度とから、候補語の類似度を算出できる。
なお、編集距離による類似度の高い候補として、読取エンジンの誤認識（「゜」と「゛」等）を取得できる。
そして、置換スコアと編集スコアとの両方のスコアが高い候補語を出力するので、付加語３６による類似度と、編集距離による類似度との両方を満たした候補語を出力できる。

（３）候補語を、候補スコアと共に出力できる。よって、候補スコアによって候補語の類似度を客観的に示すことができる。
（４）ＯＣＲによって読み取られたテキストデータから候補語を抽出するので、様々な用途で使用できる。
（５）紙のレシートに記載されたもので、例えば、店によって異なる記載がされているものを、候補語として抽出できる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。

（変形形態）
（１）本実施形態では、テキストＤＢが候補語評価サーバに対して通信可能に接続されたものであるとして説明したが、これに限定されない。テキストＤＢは、候補語評価サーバが有してもよい。
（２）本実施形態では、テキストＤＢを、紙のレシートを光学式文字読取装置によって読み取ったレシートデータを記憶するものとして説明したが、これに限定されない。光学式文字読取装置によって読み取ったデータであれば何でもよく、例えば、本の索引データ等であってもよい。また、同じものを様々な異なる表現がされるものとして、例えば、翻訳した語に対しても、有用である。

（３）本実施形態では、置換候補語抽出処理において、検索語を前後に含むテキストデータをＮ個選定するものとして説明し、具体例としては、Ｎを２０として説明したが、これに限定されない。例えば、Ｎの数は、ユーザが指定してもよい。また、検索語の文字列長に応じてＮの数を変化させてもよい。
また、検索語を前に含むテキストデータのみを選定したり、検索語を後ろに含むテキストデータのみを選定したりしてもよい。
（４）本実施形態では、編集距離を、挿入、削除、置換の最小操作数として説明したが、これに限定されない。例えば、レーベンシュタイン距離等の編集距離に関する様々な変形や拡張のものを使用してもよい。
（５）本実施形態では、端末から検索語が入力されるものであるとして説明したが、これに限定されない。例えば、候補語評価サーバに入力部と出力部とを有し、入力部から検索語を入力してもよい。

１候補語評価サーバ
４テキストＤＢ
１０制御部
１２置換候補語評価部
１２ａ付加語取得部
１２ｂ置換候補語取得部
１２ｃ置換スコア算出部
１３文字共有候補語評価部
１３ａ文字共有候補語取得部
１３ｂ編集スコア算出部
１５候補スコア算出部
１７候補語表示部
２１ａ候補語評価プログラム
１００候補語評価システム
Ｎｗ通信ネットワーク

Claims

入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得手段と、
前記付加語取得手段により取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得手段と、
を備え、
前記置換候補語取得手段は、前記付加語取得手段により取得された全ての付加語に対して処理を行い、
前記置換候補語取得手段により全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第１スコアを算出する第１スコア算出手段を備える、
候補語評価装置。
請求項１に記載の候補語評価装置において、
前記入力語を構成する文字のうちの少なくとも１文字を含む語を、前記入力語の文字共有候補語として前記テキストデータベースから抽出し、前記入力語と抽出した前記文字共有候補語との編集距離及び前記文字共有候補語の文字列長を用いて、前記文字共有候補語の前記入力語に対する編集距離による類似度を示す第２スコアを算出する第２スコア算出手段と、
前記付加語による類似度と前記編集距離による類似度とを用いて候補語の前記入力語に対する類似度を示す候補スコアを、前記第１スコア算出手段により算出された前記一の置換候補語の前記第１スコアと前記一の文字共有候補語の前記第２スコアとを用いて算出する候補スコア算出手段と、
を備えること、
を特徴とする候補語評価装置。
請求項２に記載の候補語評価装置において、
前記候補スコア算出手段により算出された前記候補スコアと、前記候補語とを表示する候補語表示手段を備えること、
を特徴とする候補語評価装置。
請求項１から請求項３までのいずれかに記載の候補語評価装置において、
前記テキストデータベースは、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶していること、
を特徴とする候補語評価装置。
請求項４に記載の候補語評価装置において、
前記テキストデータベースは、品目名及びその金額を含む文字が印刷されたレシートを、光学式文字読取装置によって光学的に読み取ることで得られた前記テキストデータを記憶していること、
を特徴とする候補語評価装置。
請求項１から請求項５までのいずれかに記載の候補語評価装置と、
手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したテキストデータベースと、
を備える候補語評価システム。
請求項１から請求項５までのいずれかに記載の候補語評価装置としてコンピュータを機能させるためのプログラム。
コンピュータが、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得ステップと、
コンピュータが、前記付加語取得ステップにより取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得ステップと、
を含み、
前記置換候補語取得ステップは、前記付加語取得ステップにより取得された全ての付加語に対して処理を行い、
コンピュータが、前記置換候補語取得ステップにより全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第１スコアを算出する第１スコア算出ステップをさらに含む、
候補語評価方法。