JP6551026B2 - 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 - Google Patents

候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 Download PDF

Info

Publication number
JP6551026B2
JP6551026B2 JP2015154917A JP2015154917A JP6551026B2 JP 6551026 B2 JP6551026 B2 JP 6551026B2 JP 2015154917 A JP2015154917 A JP 2015154917A JP 2015154917 A JP2015154917 A JP 2015154917A JP 6551026 B2 JP6551026 B2 JP 6551026B2
Authority
JP
Japan
Prior art keywords
word
candidate
candidate word
additional
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015154917A
Other languages
English (en)
Other versions
JP2017033434A (ja
Inventor
侑吾 西川
侑吾 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2015154917A priority Critical patent/JP6551026B2/ja
Publication of JP2017033434A publication Critical patent/JP2017033434A/ja
Application granted granted Critical
Publication of JP6551026B2 publication Critical patent/JP6551026B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

本発明は、候補語評価装置、候補語評価システム、プログラム及び候補語評価方法に関する。
入力として与えられた日本語文に含まれる文字認識誤りを訂正する装置が開示されている(例えば、特許文献1)。
特許第4066507号公報
光学的文字認識装置(OCR)を使用して印刷された文字を読み取った場合、誤った認識がされることで、誤ったテキストが出力されることがある。特許文献1には、誤ったテキストを訂正するための一手法が提示されている。
他方、テキストの分析等を行う際には、誤ったテキストを、正しいテキストと同様に扱いたいというニーズがある。
そこで、本発明は、入力語に類似する候補語を抽出可能な候補語評価装置、候補語評価システム、プログラム及び候補語評価方法を提供することを目的とする。
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得手段と、前記付加語取得手段により取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得手段と、を備え、前記置換候補語取得手段は、前記付加語取得手段により取得された全ての付加語に対して処理を行い、前記置換候補語取得手段により全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出手段を備える、候補語評価装置である。
第2の発明は、第1の発明の候補語評価装置において、前記入力語を構成する文字のうちの少なくとも1文字を含む語を、前記入力語の文字共有候補語として前記テキストデータベースから抽出し、前記入力語と抽出した前記文字共有候補語との編集距離及び前記文字共有候補語の文字列長を用いて、前記文字共有候補語の前記入力語に対する編集距離による類似度を示す第2スコアを算出する第2スコア算出手段と、前記付加語による類似度と前記編集距離による類似度とを用いて候補語の前記入力語に対する類似度を示す候補スコアを、前記第1スコア算出手段により算出された前記一の置換候補語の前記第1スコアと前記一の文字共有候補語の前記第2スコアとを用いて算出する候補スコア算出手段と、を備えること、を特徴とする候補語評価装置である。
第3の発明は、第2の発明の候補語評価装置において、前記候補スコア算出手段により算出された前記候補スコアと、前記候補語とを表示する候補語表示手段を備えること、を特徴とする候補語評価装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの候補語評価装置において、前記テキストデータベースは、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶していること、を特徴とする候補語評価装置である。
第5の発明は、第4の発明の候補語評価装置において、前記テキストデータベースは、品目名及びその金額を含む文字が印刷されたレシートを、光学式文字読取装置によって光学的に読み取ることで得られた前記テキストデータを記憶していること、を特徴とする候補語評価装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの候補語評価装置と、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したテキストデータベースと、を備える候補語評価システムである。
第7の発明は、第1の発明から第5の発明までのいずれかの候補語評価装置としてコンピュータを機能させるためのプログラムである。
第8の発明は、コンピュータが、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得ステップと、コンピュータが、前記付加語取得ステップにより取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得ステップと、を含み、前記置換候補語取得ステップは、前記付加語取得ステップにより取得された全ての付加語に対して処理を行い、コンピュータが、前記置換候補語取得ステップにより全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出ステップをさらに含む、候補語評価方法である。
本発明によれば、入力語に類似する候補語を抽出可能な候補語評価装置、候補語評価システム、プログラム及び候補語評価方法を提供することができる。
本実施形態に係る候補語評価システムの機能ブロックを示す図である。 本実施形態に係る候補語評価サーバでの候補語抽出処理を示すフローチャートである。 本実施形態に係る置換候補語抽出処理及び文字共有候補語抽出処理の概念図である。 本実施形態に係る候補語評価サーバでの置換候補語抽出処理を示すフローチャートである。 本実施形態に係る候補語評価サーバでの置換候補語抽出処理を説明するための図である。 本実施形態に係る候補語評価サーバでの置換候補語抽出処理を説明するための図である。 本実施形態に係る候補語評価サーバでの文字共有候補語抽出処理を示すフローチャートである。 本実施形態に係る候補語評価サーバでの文字共有候補語抽出処理を説明するための図である。 本実施形態に係る候補語評価サーバで出力する候補語リストの例を示す図である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲は、これに限られるものではない。
(実施形態)
<候補語評価システム100の全体構成>
図1は、本実施形態に係る候補語評価システム100の機能ブロックを示す図である。
候補語評価システム100は、候補語評価サーバ1(候補語評価装置)と、テキストDB(データベース)4と、端末8とが、通信ネットワークNwを介して接続されている。
候補語評価システム100は、例えば、端末8から入力された検索語(入力語)に類似する候補語を、テキストDB4から抽出して出力するシステムである。
<候補語評価サーバ1>
候補語評価サーバ1は、検索語を受け付けて、その検索語に類似する候補語をテキストDB4から抽出して出力する処理を行うサーバある。
候補語評価サーバ1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
制御部10は、候補語評価サーバ1の全体を制御するCPU(中央処理装置)である。制御部10は、記憶部20に記憶されているOS(オペレーティングシステム)や、各種のアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部10は、検索語受付部11と、置換候補語評価部12と、文字共有候補語評価部13(第2スコア算出手段)と、候補スコア算出部15(候補スコア算出手段)と、候補語表示部17(候補語表示手段)とを備える。
検索語受付部11は、端末8が送信した検索語を受け付ける制御部である。
置換候補語評価部12は、置換候補語を抽出して評価する制御部である。
置換候補語評価部12は、付加語取得部12a(付加語取得手段)と、置換候補語取得部12b(置換候補語取得手段)と、置換スコア算出部12c(第1スコア算出手段)とを備える。
付加語取得部12aは、検索語を含む複数の語を、テキストDB4から抽出し、各々の語から検索語を除いた付加語を、その付加位置(前又は後)と共に取得する。
置換候補語取得部12bは、付加語をその付加位置に有する語であって、検索語を除く語を、テキストDB4から抽出し、抽出した語から付加語を除いた語を、置換候補語として取得する。
置換スコア算出部12cは、検索語に対する置換候補語の付加語による類似度を示す置換スコア(第1スコア)を算出する。
文字共有候補語評価部13は、文字共有候補語を抽出して評価する制御部である。
文字共有候補語評価部13は、文字共有候補語取得部13aと、編集スコア算出部13bとを備える。
文字共有候補語取得部13aは、検索語を構成する文字のうち少なくとも1文字を含む語を、文字共有候補語としてテキストDB4から抽出する。
編集スコア算出部13bは、検索語と、抽出した文字共有候補語との編集距離及び文字列長を用いて、検索語に対する文字共有候補語の編集距離による類似度を示す編集スコア(第2スコア)を算出する。
候補スコア算出部15は、置換候補語評価部12が算出した置換スコアと、文字共有候補語評価部13が算出した編集スコアとに基づき、置換候補語かつ文字共有候補語である候補語の候補スコアを算出する制御部である。
候補語表示部17は、候補スコア算出部15が算出した候補スコアと、候補語とを、端末8に出力する制御部である。
なお、これらの各機能の詳細については、後述する。
記憶部20は、候補語評価サーバ1の動作に必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶装置である。
なお、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、候補語評価サーバ1は、制御部10、記憶部20等を備えた情報処理装置であり、コンピュータの概念に含まれる。
記憶部20は、プログラム記憶部21と、検索語記憶部22とを備える。
プログラム記憶部21は、プログラムを記憶する記憶領域である。プログラム記憶部21は、候補語評価プログラム21a(プログラム)を記憶する。
候補語評価プログラム21aは、制御部10の各機能を実行するためのプログラムである。
検索語記憶部22は、検索語受付部11が受け付けた検索語を記憶する記憶領域である。
通信インタフェース部29は、通信ネットワークNwを介してテキストDB4や端末8との通信を行うためのインタフェース部である。
なお、候補語評価サーバ1を構成するハードウェアの数に制限はない。必要に応じて、1又は複数で構成してもよい。また、候補語評価サーバ1のハードウェアは、必要に応じてWebサーバ、DB(データベース)サーバ、アプリケーションサーバ等の各種サーバを含んで構成してもよく、1台のサーバで構成しても、それぞれ別のサーバで構成してもよい。
<テキストDB4>
テキストDB4は、手書き文字及び印刷文字の少なくとも一方を、光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したDBである。
この例では、テキストDB4は、品目名に関するレシートデータを記憶するものとして説明する。例えば、スマートフォン等の端末(図示せず)のレシート読取エンジンにより、レシートを読み取ってテキストデータにし、端末からテキストDB4にテキストデータを記憶させることで、テキストDB4が構築される。
テキストDB4には、品目名のテキストデータが記憶されている。そして、品目名のテキストデータは、小売店等の店舗のレジスタの特性によって、1つの商品に対して、複数の品目名が設定されうるものである。レジスタの特性とは、漢字の使用可否や、印字する品目名の文字列長等である。
具体的には、ウーロン茶の商品に関して、「ウーロンチャ」、「烏龍茶」、「烏竜茶」等の表記の違いがある。このように、1つの商品であっても、小売店での登録の違いによって、複数の表現があり得る。また、端末のレシート読取エンジンの誤認識によって、「タ」と「ク」、「゛」と「゜」、「に」と「1こ」等の文字のゆらぎが生じる場合がある。
<端末8>
端末8は、テキストデータを分析するユーザが使用する端末である。端末8は、例えば、パーソナルコンピュータ(PC)や、タブレット端末等で構成することができる。図示していないが、端末8は、制御部、記憶部、表示部等を備える。
通信ネットワークNwは、候補語評価サーバ1と、テキストDB4と、端末8との間のネットワークであり、例えば、インターネット回線等の通信網である。
<候補語抽出処理>
次に、候補語評価サーバ1で行う処理について説明する。
図2は、本実施形態に係る候補語評価サーバ1での候補語抽出処理を示すフローチャートである。
図3は、本実施形態に係る置換候補語抽出処理及び文字共有候補語抽出処理の概念図である。
図4は、本実施形態に係る候補語評価サーバ1での置換候補語抽出処理を示すフローチャートである。
図5及び図6は、本実施形態に係る置換候補語抽出処理を説明するための図である。
図7は、本実施形態に係る候補語評価サーバ1での文字共有候補語抽出処理を示すフローチャートである。
図8は、本実施形態に係る文字共有候補語抽出処理を説明するための図である。
図9は、本実施形態に係る候補語評価サーバ1で出力する候補語リストの例を示す図である。
図2のステップS(以下、単に「S」という。)10において、候補語評価サーバ1の制御部10(検索語受付部11)は、検索語を受け付ける。例えば、端末8からユーザが検索語として「ポテトチップス」を入力することで、検索語受付部11は、「ポテトチップス」からなるテキストデータを受け付ける。
S11において、制御部10(置換候補語評価部12)は、置換候補語抽出処理を行う。
置換候補語抽出処理は、図3(A)に示すように、検索語35の前後に付く付加語36を含む語である置換候補語37をテキストDB4から抽出して、検索語35に対する置換候補語37の付加語36による類似度を評価する処理である。
ここで、置換候補語抽出処理の詳細について、図4に基づき説明する。
図4のS20において、制御部10(付加語取得部12a)は、テキストDB4を参照して、検索語35を前後に含むテキストデータを取得する。
S21において、制御部10(付加語取得部12a)は、テキストDB4を参照して、取得したテキストデータの件数を集計する。
S22において、制御部10(付加語取得部12a)は、件数の多い順にソートして、上位N個のテキストデータを選定する。
図5(A)は、選定テーブル30の例を示す。選定テーブル30は、検索語35が「ポテトチップス」を含むテキストデータと、テキストDB4に収録されたテキストデータの件数とを対応付けて記憶する。選定テーブル30は、件数が多い順にソートされ、上位N個のテキストデータを選定可能に記憶されている。
図4に戻り、S23において、制御部10(付加語取得部12a)は、選定したテキストデータから検索語35を除いた語である付加語36を抽出する。
図5(B)は、付加語テーブル31の例を示す。付加語テーブル31は、付加語36と、付加語36の配置位置とを対応付けて記憶する。付加語36は、検索語35である「ポテトチップス」を除く語である。
図4に戻り、S24において、制御部10(置換候補語取得部12b)は、付加語テーブル31から1つの付加語36を取得する。
S25において、制御部10(置換候補語取得部12b)は、テキストDB4から付加語36を含むテキストデータを取得する。
S26において、制御部10(置換候補語取得部12b)は、取得したテキストデータから付加語36を除いた語である置換候補語37を取得する。
図5(C)は、に示す置換候補語テーブル32Aは、付加語36である「うすしお」を、配置位置「後」に有するテキストデータと、付加語36を除いた置換候補語37とを対応付けて記憶している。置換候補語テーブル32Aに示すように、付加語36である「うすしお」を「後」に有する様々な置換候補語37を取得できる。例えば、置換候補語37が「フライドポテト」は、「ポテトチップス」とは異なる品目である。また、置換候補語37が「ポテチ」は、「ポテトチップス」の略語である。さらに、置換候補語37が「ポテトチッブス」は、「ポテトチップス」の「プ」が、「ブ」に誤認識されたものである。
図4に戻り、S27において、制御部10は、全ての付加語36(N個)について処理をしたか否かを判断する。全ての付加語36(N個)について処理をした場合(S27:YES)には、制御部10は、処理をS28に移す。他方、全ての付加語36(N個)について処理をしていない場合(S27:NO)には、制御部10は、処理をS24に移し、未処理の付加語36を取得して、置換候補語37を取得する処理を繰り返す。
制御部10は、1つの付加語36から置換候補語37を取得する処理を繰り返すことで、図5(C)に示すように、N個の置換候補語テーブル32(32A,32B,・・・)を作成する。
S28において、制御部10(置換スコア算出部12c)は、置換候補語テーブル32(32A,32B,・・・)を参照し、置換候補語37ごとに付加語36の数を集計する。具体的には、制御部10は、N個の置換候補語テーブル32(32A,32B,・・・)から1つの置換候補語37を含むテーブル数を集計することで、その置換候補語37の付加語36の数にすることができる。
例えば、置換候補語37である「ポテトチッブス」が、付加語36が「うすしお」と付加語36が「無添加」との置換候補語テーブル32に含まれる場合、置換候補語37が「ポテトチッブス」の付加語36の数は、2になる。
S29において、制御部10(置換スコア算出部12c)は、集計した付加語36の数により、置換スコアを算出する。検索語35をqとし、置換候補語37をw1とし、w1の付加語36の数をmとし、付加語36の総数をNとした場合、置換スコアsim_Pt(q,w1)は、次の式で算出できる。
Figure 0006551026
図6は、置換スコアテーブル33の例を示す。置換スコアテーブル33は、置換候補語37と、付加語36の数と、置換スコアとを対応付けて記憶している。この例では、Nを20としている。置換候補語37が「ポテトチッブス」は、20個の付加語36のうち、19個の付加語36が付加されていることを示す。
図4に戻り、制御部10は、本処理を終了し、処理を図2に移す。
置換スコアは、その数値が高いほど、検索語35と似たような使用がされているため、検索語35と、置換候補語37とを置換しても同じものであるという度合いが高いことを示す。よって、置換スコアが高いほど、検索語35と、置換候補語37との登場の仕方が類似したものであると言える。つまり、置換スコアが高いものは、同じ商品での異なる言い回しによるものを含む可能性が高い。異なる言い回しは、上述したようにレジスタの特性の他、商品名の略語を含む。よって、検索語35の文字列長が長いものであるほど、置換スコアが高い置換候補語37として、様々な種類のものが取得できる。
図2に戻り、S12において、制御部10(文字共有候補語評価部13)は、文字共有候補語抽出処理を行う。
文字共有候補語抽出処理は、図3(B)に示すように、検索語35の文字と同じ文字を1文字以上含む文字共有候補語38をテキストDB4から抽出して、検索語35に対する文字共有候補語38の編集距離による類似度を評価する処理である。
ここで、文字共有候補語抽出処理の詳細について、図7に基づき説明する。
図7のS40において、制御部10(文字共有候補語取得部13a)は、テキストDB4から検索語35と同じ文字を1文字以上含むテキストデータを抽出する。
S41において、制御部10(文字共有候補語取得部13a)は、検索語35と同じテキストデータを除いた語を、文字共有候補語38とする。
図8は、編集スコアテーブル50の例を示す。S41の処理によって、文字共有候補語部50aに格納される文字共有候補語38が抽出される。文字共有候補語38は、検索語35である「ポテトチップス」を構成する文字「ポ」、「テ」、「ト」、「チ」、「ッ」、「プ」、「ス」のうちのいずれか1つを少なくとも含むテキストデータである。
図7に戻り、S42において、制御部10(編集スコア算出部13b)は、1つの文字共有候補語38を取得する。
S43において、制御部10(編集スコア算出部13b)は、検索語35と、文字共有候補語38との編集距離を算出する。文字共有候補語38が検索語35にどれくらい類似する語であるかの1つの指標として、編集距離を用いる。編集距離は、文字共有候補語38から検索語35に変換する際に、文字共有候補語38の文字列から文字を挿入、削除、置換の操作を行うが、その最小操作数である。
図8に示す文字共有候補語38が「ポテチ」は、「テ」と「チ」との間に「ト」の1文字を挿入し、「チ」の後ろに「ッ」、「プ」、「ス」の3文字を挿入することで、「ポテトチップス」に変換できる。よって、文字共有候補語38が「ポテチ」の編集距離は、4である。
図7に戻り、S44において、制御部10(編集スコア算出部13b)は、検索語35と文字共有候補語38とのうちの最大文字列長を取得する。
上述した文字共有候補語38が「ポテチ」は、文字列長が3であり、他方、検索語35である「ポテトチップス」の文字列長が7であるので、最大文字列長は7である。また、文字共有候補語38が「ポテトチップフ、」の場合には、文字列長が8であり、検索語35の文字列長(7)の方が短いので、最大文字列長は8である。
S45において、制御部10(編集スコア算出部13b)は、文字列長と、編集距離とにより、文字共有候補語38の編集スコアを算出する。検索語35をqとし、その文字列長をlen(q)とし、文字共有候補語38をw2とし、その文字列長をlen(w2)とし、最大文字列長をmax(len(q),len(w2))とし、編集距離をLD(q,w2)とした場合、編集スコアsim_LD(q,w2)は、次の式で算出できる。
Figure 0006551026
図8に示す編集スコアテーブル50は、文字共有候補語38と、編集距離と、最大文字列長と、編集スコアとを対応付けて記憶している。編集スコアは、最大文字列長で除算することで、文字列長の長短によらないように正規化している。
図7に戻り、S46において、制御部10(文字共有候補語評価部13)は、S41で取得した全ての文字共有候補語38について処理をしたか否かを判断する。全ての文字共有候補語38について処理をした場合(S46:YES)には、制御部10は、本処理を終了し、処理を図2に移す。他方、全ての候補語について処理をしていない場合(S46:NO)には、制御部10は、処理をS42に移し、未処理の文字共有候補語38を取得して、文字共有候補語38に対する編集スコア算出処理を繰り返す。
制御部10は、全ての文字共有候補語38について処理をすることで、編集スコアテーブル50を、全ての項目にデータが入ったものにできる。
そして、編集スコアは、その数値が高いほど、検索語35と文字共有候補語38との語の構成に関する類似度が高いことを示す。つまり、編集スコアが高い文字共有候補語38は、検索語35と文字面が似ているものであり、文字の誤認識がされたものが高く算出される。
図2に戻り、S13において、制御部10(候補スコア算出部15)は、検索語35に対する候補語の候補スコアを算出する。候補語をwとした場合、候補スコアsim(q,w)は、以下の式で算出できる。
Figure 0006551026
例えば、候補語「ポテトチッブス」の場合、置換スコアが0.95であり(図6)、編集スコアが0.857である(図8)ので、候補スコアは、0.814になる。
また、候補語「トマト」の場合には、編集スコアが0.142であるが(図8)、置換候補語37に含まれないため置換スコアが0である。よって、候補語「トマト」の候補スコアは、0である。
このように、置換候補語37と文字共有候補語38との一方にしか含まれない候補語に関しては、候補スコアが0になる。
S14において、制御部10(候補語表示部17)は、候補語と候補リストとからなる候補語リスト60を、端末8に対して出力することで、端末8に表示させる。
図9は、検索語35である「ポテトチップス」に対する候補語リスト60の例を示す。候補語リスト60は、候補スコアの高い順にソートされている。ユーザは、候補語リスト60を参照し、候補スコアが所定値以上の候補語を、検索語35に類似したものとして抽出できる。そして、ユーザは、データ分析の際に、候補語を、検索語35と同様に扱うことができる。
このように、本実施形態によれば、候補語評価サーバ1は、以下のような効果がある。
(1)検索語35の前後に付加された付加語36から置換候補語37を抽出できる。また、置換候補語37が検索語35と同じ付加語36を含む場合に、その付加語36の数に応じて、検索語35に対する置換候補語37の付加語36による類似度を、置換スコアとして算出できる。よって、付加語36を用いて置換候補語37を抽出し、置換候補語37の検索語35に対する付加語36による類似度を、客観的に示すことができる。
類似度の高い置換候補語37として、例えば、検索語35の略語や、表記方法の違いによる語の違い(ひらがな、カタカナ、漢字等の表記違い等)を取得できる。
(2)検索語35の文字を一部に含む文字共有候補語38の検索語35に対する編集距離の類似度を、編集距離及び文字列長によって算出し、付加語36による候補語の類似度と、編集距離による候補語の類似度とから、候補語の類似度を算出できる。
なお、編集距離による類似度の高い候補として、読取エンジンの誤認識(「゜」と「゛」等)を取得できる。
そして、置換スコアと編集スコアとの両方のスコアが高い候補語を出力するので、付加語36による類似度と、編集距離による類似度との両方を満たした候補語を出力できる。
(3)候補語を、候補スコアと共に出力できる。よって、候補スコアによって候補語の類似度を客観的に示すことができる。
(4)OCRによって読み取られたテキストデータから候補語を抽出するので、様々な用途で使用できる。
(5)紙のレシートに記載されたもので、例えば、店によって異なる記載がされているものを、候補語として抽出できる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
(変形形態)
(1)本実施形態では、テキストDBが候補語評価サーバに対して通信可能に接続されたものであるとして説明したが、これに限定されない。テキストDBは、候補語評価サーバが有してもよい。
(2)本実施形態では、テキストDBを、紙のレシートを光学式文字読取装置によって読み取ったレシートデータを記憶するものとして説明したが、これに限定されない。光学式文字読取装置によって読み取ったデータであれば何でもよく、例えば、本の索引データ等であってもよい。また、同じものを様々な異なる表現がされるものとして、例えば、翻訳した語に対しても、有用である。
(3)本実施形態では、置換候補語抽出処理において、検索語を前後に含むテキストデータをN個選定するものとして説明し、具体例としては、Nを20として説明したが、これに限定されない。例えば、Nの数は、ユーザが指定してもよい。また、検索語の文字列長に応じてNの数を変化させてもよい。
また、検索語を前に含むテキストデータのみを選定したり、検索語を後ろに含むテキストデータのみを選定したりしてもよい。
(4)本実施形態では、編集距離を、挿入、削除、置換の最小操作数として説明したが、これに限定されない。例えば、レーベンシュタイン距離等の編集距離に関する様々な変形や拡張のものを使用してもよい。
(5)本実施形態では、端末から検索語が入力されるものであるとして説明したが、これに限定されない。例えば、候補語評価サーバに入力部と出力部とを有し、入力部から検索語を入力してもよい。
1 候補語評価サーバ
4 テキストDB
10 制御部
12 置換候補語評価部
12a 付加語取得部
12b 置換候補語取得部
12c 置換スコア算出部
13 文字共有候補語評価部
13a 文字共有候補語取得部
13b 編集スコア算出部
15 候補スコア算出部
17 候補語表示部
21a 候補語評価プログラム
100 候補語評価システム
Nw 通信ネットワーク

Claims (8)

  1. 入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得手段と、
    前記付加語取得手段により取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得手段と、
    を備え、
    前記置換候補語取得手段は、前記付加語取得手段により取得された全ての付加語に対して処理を行い、
    前記置換候補語取得手段により全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出手段を備える、
    候補語評価装置。
  2. 請求項1に記載の候補語評価装置において、
    前記入力語を構成する文字のうちの少なくとも1文字を含む語を、前記入力語の文字共有候補語として前記テキストデータベースから抽出し、前記入力語と抽出した前記文字共有候補語との編集距離及び前記文字共有候補語の文字列長を用いて、前記文字共有候補語の前記入力語に対する編集距離による類似度を示す第2スコアを算出する第2スコア算出手段と、
    前記付加語による類似度と前記編集距離による類似度とを用いて候補語の前記入力語に対する類似度を示す候補スコアを、前記第1スコア算出手段により算出された前記一の置換候補語の前記第1スコアと前記一の文字共有候補語の前記第2スコアとを用いて算出する候補スコア算出手段と、
    を備えること、
    を特徴とする候補語評価装置。
  3. 請求項2に記載の候補語評価装置において、
    前記候補スコア算出手段により算出された前記候補スコアと、前記候補語とを表示する候補語表示手段を備えること、
    を特徴とする候補語評価装置。
  4. 請求項1から請求項3までのいずれかに記載の候補語評価装置において、
    前記テキストデータベースは、手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶していること、
    を特徴とする候補語評価装置。
  5. 請求項4に記載の候補語評価装置において、
    前記テキストデータベースは、品目名及びその金額を含む文字が印刷されたレシートを、光学式文字読取装置によって光学的に読み取ることで得られた前記テキストデータを記憶していること、
    を特徴とする候補語評価装置。
  6. 請求項1から請求項5までのいずれかに記載の候補語評価装置と、
    手書き文字及び印刷文字の少なくとも一方を光学式文字読取装置によって光学的に読み取ることで得られたテキストデータを記憶したテキストデータベースと、
    を備える候補語評価システム。
  7. 請求項1から請求項5までのいずれかに記載の候補語評価装置としてコンピュータを機能させるためのプログラム。
  8. コンピュータが、入力語を含む複数の語をテキストデータベースから抽出し、前記複数の語の各々から前記入力語を除いた付加語を、前記付加語の付加位置と共に複数取得する付加語取得ステップと、
    コンピュータが、前記付加語取得ステップにより取得した一の前記付加語を前記付加位置に有する語のうち前記入力語を除く語を、前記テキストデータベースから抽出し、抽出した語から前記付加語を除いた置換候補語を取得する置換候補語取得ステップと、
    を含み、
    前記置換候補語取得ステップは、前記付加語取得ステップにより取得された全ての付加語に対して処理を行い、
    コンピュータが、前記置換候補語取得ステップにより全ての付加語に対して処理をした結果、取得した全付加語数と抽出した置換候補語の抽出数との割合から、前記置換候補語の前記入力語に対する付加語による類似度を示す第1スコアを算出する第1スコア算出ステップをさらに含む、
    候補語評価方法。
JP2015154917A 2015-08-05 2015-08-05 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 Active JP6551026B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015154917A JP6551026B2 (ja) 2015-08-05 2015-08-05 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015154917A JP6551026B2 (ja) 2015-08-05 2015-08-05 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法

Publications (2)

Publication Number Publication Date
JP2017033434A JP2017033434A (ja) 2017-02-09
JP6551026B2 true JP6551026B2 (ja) 2019-07-31

Family

ID=57988251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015154917A Active JP6551026B2 (ja) 2015-08-05 2015-08-05 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法

Country Status (1)

Country Link
JP (1) JP6551026B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160013B (zh) * 2019-12-30 2023-11-24 北京百度网讯科技有限公司 文本纠错方法及装置
JP7421384B2 (ja) * 2020-03-19 2024-01-24 株式会社Pfu 情報処理装置、修正候補表示方法、及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3309174B2 (ja) * 1995-05-15 2002-07-29 日本電信電話株式会社 文字認識方法及び装置
JP4066507B2 (ja) * 1998-05-11 2008-03-26 日本電信電話株式会社 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP2000222427A (ja) * 1999-02-02 2000-08-11 Mitsubishi Electric Corp 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体
JP2005326972A (ja) * 2004-05-12 2005-11-24 Sun Corp 購入情報管理装置
JP5703629B2 (ja) * 2010-08-24 2015-04-22 大日本印刷株式会社 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム
JP2012247948A (ja) * 2011-05-26 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> 辞書管理装置、辞書管理方法、辞書管理プログラム

Also Published As

Publication number Publication date
JP2017033434A (ja) 2017-02-09

Similar Documents

Publication Publication Date Title
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
US9898464B2 (en) Information extraction supporting apparatus and method
JP5445787B2 (ja) 属性抽出方法、システム及びプログラム
JP2010015554A (ja) 表構造解析装置、表構造解析方法および表構造解析プログラム
JP2008198132A (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US8290925B1 (en) Locating product references in content pages
US20190362187A1 (en) Training data creation method and training data creation apparatus
US9430793B2 (en) Dictionary generation device, dictionary generation method, dictionary generation program and computer-readable recording medium storing same program
JP6551026B2 (ja) 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法
KR20180036074A (ko) 텍스트 필터링 장치 및 방법
JP2016212879A (ja) 情報処理方法及び情報処理装置
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
US20140358522A1 (en) Information search apparatus and information search method
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
CN110334324A (zh) 一种基于自然语言处理的文档相似度识别方法及相关设备
JP2010102564A (ja) 感情特定装置、その方法、プログラム及び記録媒体
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
US9910846B2 (en) Conversion device and conversion method
KR20170085736A (ko) 전자 출판물에 대한 정보를 생성하는 장치 및 방법
JP6804913B2 (ja) 表構造推定システムおよび方法
JP6200392B2 (ja) 情報提示装置および情報提示プログラム
US11868726B2 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium
Putra et al. The Implementation of Indonesian Stemming System for Indonesian Translation of the Quran

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180625

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190617

R150 Certificate of patent or registration of utility model

Ref document number: 6551026

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150