JP6759955B2 - 地名抽出プログラム、地名抽出装置および地名抽出方法 - Google Patents

地名抽出プログラム、地名抽出装置および地名抽出方法 Download PDF

Info

Publication number
JP6759955B2
JP6759955B2 JP2016199447A JP2016199447A JP6759955B2 JP 6759955 B2 JP6759955 B2 JP 6759955B2 JP 2016199447 A JP2016199447 A JP 2016199447A JP 2016199447 A JP2016199447 A JP 2016199447A JP 6759955 B2 JP6759955 B2 JP 6759955B2
Authority
JP
Japan
Prior art keywords
place name
character string
character
characters
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016199447A
Other languages
English (en)
Other versions
JP2018060474A (ja
Inventor
美佐子 宗
美佐子 宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016199447A priority Critical patent/JP6759955B2/ja
Publication of JP2018060474A publication Critical patent/JP2018060474A/ja
Application granted granted Critical
Publication of JP6759955B2 publication Critical patent/JP6759955B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、地名抽出プログラム、地名抽出装置および地名抽出方法に関する。
カメラやスキャナにより得られた画像に含まれる住所・所在地表記(以下では、上位の都道府県等が省略される場合を含め、丁目番地の手前までを地名部とし、丁目番地を含めた全体を住所・所在地表記とする)をテキストデータとして利用したいというニーズが存在する。例えば、雑誌に掲載された施設の記事における住所・所在地表記をユーザがスマートフォンのカメラで撮影すると、記事の中に記載された住所・所在地表記が抽出されて電子地図の該当位置に対応して登録されて表示されるといったアプリケーションが考えられる。同様に、車載カメラで撮影された街中の施設の看板に記載された住所・所在地表記が電子地図の該当位置に対応して登録されて表示されるといったアプリケーションも考えられる。
このような画像に含まれる住所・所在地表記は、上位の都道府県等の省略、前後の住所・所在地表記でない余分な文字列の存在、表記の揺れ等により不完全なものであることが多い。また、写真撮影による場合、影による文字の欠損や、ボケが含まれる場合もあり、それらに起因して文字の認識誤りが発生することもある。被写体に汚れがある場合も影によるのと同様に文字の欠損が生じる場合がある。
図1(a)は、上位の都道府県等が省略された例(上位の2階層が省略)であり、雑誌や看板等では提供される地域が限定されているためによくあるケースである。図1(b)は、前後の住所・所在地表記でない余分な文字列の存在の例であり、記事の説明の一部や、「住所」を示す記号や駐車場を示す記号および収容台数等の記載が住所・所在地表記の前後に含まれている。図1(c)は、表記の揺れの例を示しており、発音上の「の」が入ったり省略されたり、「字(あざ)」が入ったり省略されたりすることで文字数が増減する場合がある。図1(d)は、写真撮影時の影により文字の欠損が生じる例を示している。図1(e)は、写真撮影時にフォーカスが不十分であったためにボケが生じ、一部の文字が誤認識(「桑」が「団」に誤認識)された例を示している。
このような要因から、文字認識された文字列は住所・所在地表記としては不完全なものであり、地図情報等と対応付けるためには正確な住所・所在地表記の文字列に修正する必要がある。
一方、売上げ伝票、配送伝票等に記入される住所の文字認識結果について、認識誤りを修正し、更に、部分的に省略された住所文字列を補う文字認識結果修正方式が開示されている(例えば、特許文献1等を参照)。しかし、「県」「市」「町」等の区切り文字に着目し、所定数の候補の中で可能な組み合わせの中から正解を特定するものであるため、区切り文字が欠損している場合や、住所文字列の前後に住所ではない文字列が存在する場合には、正しく修正できない場合がある。
特開平3−257693号公報
上述したように、従来の手法では、不完全な住所・所在地表記、主に不完全な地名の表記を含む文字列から正確な地名の文字列を抽出するのが困難であった。
そこで、一側面では、本発明は、不完全な地名の表記を含む文字列から正確な地名の文字列を抽出することを目的とする。
一つの形態では、文字列を受け付け、地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字との編集距離がより小さく、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、処理をコンピュータに実行させる。
不完全な地名を含む文字列から正確な地名の文字列を抽出することができる。
不完全な地名の例を示す図である。 住所・所在地表記抽出装置の機能構成例を示す図である。 住所・所在地表記抽出装置のハードウェア構成例を示す図である。 実施形態の処理例を示すフローチャートである。 地名候補の絞り込みの処理例を示す図である。 地名情報の例を示す図である。 照合コストの計算式の例を示す図である。 地名区切り文字判定の例を示す図である。 認識結果文字列の地名部の置き換えの例を示す図である。 丁目番地区切り文字検出の例を示す図である。 不要文字列削除の例を示す図である。
以下、本発明の好適な実施形態につき説明する。
<構成>
図2は住所・所在地表記抽出装置(情報処理装置)1の機能構成例を示す図である。図2において、住所・所在地表記抽出装置1は、認識結果入力部101と地名候補絞り込み部102と地名照合部103と地名区切り文字判定部104と地名決定部105と地名修正部106とを備えている。また、住所・所在地表記抽出装置1は、丁目番地区切り文字検出部107と丁目番地修正・決定部108と住所・所在地表記出力部109とを備えている。更に、住所・所在地表記抽出装置1は、処理に際して参照する情報として、地名文字情報111と地名情報112と丁目番地文字情報113とを備えている。
地名文字情報111は、住所・所在地表記の対象となる範囲(例えば、日本全国)に存在する地名文字列(丁目番地の手前までの文字列)と、その地名文字列に含まれる個々の文字(見出し文字)とを対応付けたものである。ある文字を指定することで、その文字を含む1以上の地名文字列を特定することができる。地名文字情報111の具体例については後述する。
地名情報112は、対象となる範囲に存在する地名文字列を集積したものである。地名情報112の具体例については後述する。
丁目番地文字情報113は、丁目番地(丁目または番地)に用いられる可能性のある文字と、該文字と誤認識(混同)しやすい文字等と、丁目番地の末尾にくる可能性の有無とを対応付けたものである。丁目番地文字情報113の具体例については後述する。
認識結果入力部101は、住所・所在地表記を含む文字認識結果である文字列(認識結果文字列)のテキストデータを入力(受付)する機能を有している。例えば、ユーザが雑誌やパンフレット等の住所・所在地表記を含む部分をスマートフォンのカメラ等で撮影し、その撮影画像から文字認識された結果が認識結果文字列として入力される。
地名候補絞り込み部102は、認識結果入力部101により入力した認識結果文字列に対し、地名文字情報111を参照して、その後の処理に用いる地名文字列の候補を絞り込む機能を有している。処理の詳細については後述する。
地名照合部103は、地名候補絞り込み部102により絞り込まれた地名文字列の候補と、認識結果入力部101により入力した認識結果文字列とを照合し、照合スコアまたは照合コストを計算する機能を有している。照合スコアは、文字の順序を含めて、認識結果文字列に含まれる文字と候補の地名文字列に含まれる文字とが共通する文字数の多さを示すものである。照合コストは、認識結果文字列と候補の地名文字列との両者を合致させるために文字の挿入・削除・置換等を行うのに要する労力の度合いを示すものである。照合スコアまたは照合コストの計算の具体例については後述する。
地名区切り文字判定部104は、照合スコアの大きい順、または、照合コストの小さい順に、上位所定数の候補の地名文字列の地名区切り文字が認識結果文字列に含まれるか否かを判定する機能を有している。地名区切り文字は、地名部の末尾の文字(丁目番地を示す文字に切り替わる直前の文字)を含む1以上の文字であり、それらの文字のいずれかが認識結果文字列に含まれるか否かを判定する。地名部の末尾は省略される可能性が低いため、末尾付近の文字の一致をもって、対応する地名であると特定するようにしている。なお、地名部の末尾の文字だけとしなかったのは、その文字に対応する認識結果文字列における文字が欠落していたり誤認識されていたりする場合に対処するためである。
地名決定部105は、地名文字列の地名区切り文字が認識結果文字列に含まれる地名文字列のうち、照合スコアが高いものを優先(照合コストの場合は低いものを優先)し、認識結果文字列に含まれる地名として決定する機能を有している。
地名修正部106は、認識結果文字列中の地名文字列の末端を特定し、認識結果文字列の先端から地名文字列の末端までを地名決定部105で決定された地名文字列で置き換えることで、認識結果文字列を修正する機能を有している。
丁目番地区切り文字検出部107は、修正後の認識結果文字列における地名部の末端の後を丁目番地部と不要文字列部として、丁目番地部と不要文字列部の境界に対応する丁目番地区切り文字を丁目番地文字情報113を使って検出する機能を有している。
丁目番地修正・決定部108は、丁目番地区切り文字検出部107により検出された丁目番地区切り文字から丁目番地部を特定するとともに、丁目番地部より後の不要文字列部を認識結果文字列から削除する機能を有している。
住所・所在地表記出力部109は、最終的に得られた修正済みの認識結果文字列を住所・所在地文字列として出力する機能を有している。
図3は住所・所在地表記抽出装置1のハードウェア構成例を示す図である。図3において、住所・所在地表記抽出装置1は、システムバス1001に接続されたCPU(Central Processing Unit)1002、ROM(Read Only Memory)1003、RAM(Random Access Memory)1004、NVRAM(Non-Volatile Random Access Memory)1005を備えている。また、住所・所在地表記抽出装置1は、I/F(Interface)1006と、I/F1006に接続された、I/O(Input/Output Device)1007、HDD(Hard Disk Drive)/SSD(Solid State Drive)1008、NIC(Network Interface Card)1009とを備えている。また、住所・所在地表記抽出装置1は、I/O1007に接続されたモニタ1010、キーボード1011、マウス1012等を備えている。I/O1007にはCD/DVD(Compact Disk/Digital Versatile Disk)ドライブ等を接続することもできる。
図2で説明した住所・所在地表記抽出装置1の機能は、CPU1002において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得されるものでもよいし、ネットワークを経由して取得されるものでもよいし、ROM組込でもよい。また、処理に際して参照・更新される情報は、一時的にはRAM1004に記憶され、永続的にはHDD/SSD1008やNVRAM1005に記憶される。
<動作>
図4は上記の実施形態の処理例を示すフローチャートである。図4において、住所・所在地表記抽出装置1が処理を開始すると、認識結果入力部101は、住所・所在地表記を含む文字認識結果である文字列(認識結果文字列)のテキストデータを入力(受付)する(ステップS101)。
次いで、地名候補絞り込み部102は、認識結果入力部101により入力した認識結果文字列に対し、地名文字情報111を参照して、その後の処理に用いる地名文字列の候補を絞り込む(ステップS102)。
図5は地名候補絞り込み部102による地名候補の絞り込みの処理例を示す図である。ここでは、図5(a)の右側に示すような認識結果文字列が入力されたとすると、認識結果文字列に含まれる各文字について、地名文字情報111の見出し文字に存在するか否かを調べる。そして、見出し文字に存在する場合に、その見出し文字に関連付けられた地名文字列に1票を投票する。図示の例では、「大崎」の「大」、「菱田」の「菱」について、それぞれ投票を行っている様子を示している。投票数は地名文字情報111の各地名文字列と対応付けて一時的に記憶しておく。なお、図5(b)は地名文字情報111のデータ構造例を示しており、通番と、見出し文字の文字コードと、この見出し文字に関連付けられた地名文字列の個数と、関連付けられた地名文字列の地名番号(地名情報112の地名に対応)とが対応付けられている。投票数は、例えば、地名文字情報111の地名番号に対応付けて記憶する。
投票の結果を、図5(c)に示すように、投票数の多い順にソートし、所定の閾値以下の地名文字列を足切することで、投票数が多い上位の地名文字列に絞り込みを行う。例えば、投票数の閾値を「2」として2以下を足切すると、地名候補数を約12万件からN=O(1000)〜O(10)に減らすことが可能である。「O()」はオーダを示している。
図4に戻り、地名照合部103は、地名候補絞り込み部102により絞り込まれた候補の地名文字列を地名情報112から取得し、認識結果入力部101により入力した認識結果文字列と照合し、照合スコアまたは照合コストを計算する(ステップS103)。
図6は地名情報112の例を示す図であり、通番と、都道府県番号と、文字数と、地名文字列とが対応付けられている。例えば、地名照合部103は地名候補絞り込み部102から絞り込まれた地名候補の通番を受け取り、その通番を指定することで地名情報112から地名文字列を取得することができる。
図7は照合コストの計算式の例を示す図であり、文字の挿入・削除・置換があっても対応付けられる、例えばDPマッチング(動的計画法)を照合に用い、その際に得られる編集距離Lを用いている。編集距離Lは、2つの文字列の相違度を表す量であり、片方の文字列から片方の文字列変換するときの、文字の挿入・削除・置換の必要最小手順に該当する。図示の式において、Cは照合コスト、nは地名情報112中の着目する地名文字列(文字列#1)の文字数、nは入力文字列(認識結果文字列)(文字列#2)の文字数、kは文字列#1と文字列#2で一致する文字数である。文字列の長さに照合コストCを依存させないため、照合コストCは編集距離Lを2文字列の文字数n、nで正規化している。また、同じ編集距離Lの場合は、一致する文字数の割合が大きい方が照合コストCが小さくなるようにしている。なお、図示の式は一例であり、種々に設計が可能である。照合スコアは、照合コストとは逆の傾向を示す値であり、一致する文字数の比率や文字の順序関係の一致の比率等に応じた値である。
図4に戻り、地名区切り文字判定部104は、照合スコアの大きい順、または、照合コストの小さい順に地名候補を並び替える(ステップS104)。そして、地名区切り文字判定部104は、上位M個の地名候補を選択し(ステップS105)、i番目の地名候補の地名区切り文字が認識結果文字列中にあるかチェックを行い(ステップS106)、ない場合(ステップS107のNo)は次の地名候補についてチェックを行う。
図8(a)は地名候補を照合コストが小さい順に並び替えた例を示しており、順位「1」の地名文字列「鹿児島県曽於郡大崎町菱田」の地名区切り文字が末尾の2文字「菱」、「田」となっている。ここで、図8(b)に示すような認識結果文字列であった場合、順位「1」の地名文字列の地名区切り文字の「田」(「菱」についても一致するが、末尾に近い方を優先)が存在すると判定される。
図4に戻り、地名候補の地名区切り文字が認識結果文字列中にあると判断された場合(ステップS107のYes)、地名決定部105は、認識結果文字列に地名区切り文字が存在した地名文字列を地名として決定する(ステップS108)。
次いで、地名修正部106は、認識結果文字列中の地名文字列の末端を特定し、認識結果文字列の先端から地名文字列の末端までを地名決定部105で決定された地名文字列で置き換えることで、認識結果文字列を修正する(ステップS109)。
図9は認識結果文字列の地名部の置き換えの例を示す図である。図9(a)に示すように、認識結果文字列の先端から地名区切り文字と一致した文字「田」までを置き換え対象とし、この置き換え対象の部分を、決定した地名文字列に置き換える。図9(b)は置き換え後の認識結果文字列を示している。
図4に戻り、丁目番地区切り文字検出部107は、修正後の認識結果文字列における地名部の末端より後を丁目番地部と不要文字列部として、丁目番地部と不要文字列部の境界に対応する丁目番地区切り文字を丁目番地文字情報113を使って検出する(ステップS110)。
図10(a)は丁目番地文字情報113の例を示しており、丁目番地として用いられる可能性のある文字と、その文字と誤認識(混同)しやすいコンフュージョン文字と、丁目番地の末尾にくる可能性とが対応付けられている。ある文字が丁目番地として用いられる可能性のある文字そのものではなくても、コンフュージョン文字に該当する場合は、丁目番地として用いられる可能性のある文字と同様に扱われる。なお、コンフュージョン文字に該当する場合、認識結果文字列における該当する文字は丁目番地として用いられる可能性のある文字に置換される。
ここで、図10(b)に示すような認識結果文字列である場合、地名部の末尾の後に続く文字のうち、「3」「2」は丁目番地文字情報113に登録されており、丁目番地文字として適正(OK)であると判断される。しかし、それに続く「@」は丁目番地文字情報113に文字としてもコンフュージョン文字としても登録されておらず、不要文字列部の先頭と判断され、その直前の「2」が丁目番地区切り文字とされる。
図4に戻り、丁目番地修正・決定部108は、丁目番地区切り文字検出部107により検出された丁目番地区切り文字から丁目番地部を特定するとともに、丁目番地部より後の不要文字列部を認識結果文字列から削除する(ステップS111)。図11(a)は不要文字列削除前の認識結果文字列を示し、図11(b)は不要文字列削除後の認識結果文字列を示している。
図4に戻り、住所・所在地表記出力部109は、最終的に得られた修正済みの認識結果文字列を住所・所在地文字列として出力し(ステップS112)、処理を終了する。
<総括>
以上説明したように、本実施形態によれば、不完全な地名を含む文字列から正確な地名の文字列を抽出することができる。また、住所・所在地表記の全体についても正確な文字列を抽出することができる。
以上、好適な実施の形態により説明した。ここでは特定の具体例を示して説明したが、特許請求の範囲に定義された広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により限定されるものと解釈してはならない。
以上の説明に関し、更に以下の項を開示する。
(付記1)
文字列を受け付け、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字とが共通する文字数がより多く、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
処理をコンピュータに実行させることを特徴とする地名抽出プログラム。
(付記2)
前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
ことを特徴とする付記1に記載の地名抽出プログラム。
(付記3)
前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
ことを特徴とする付記1または2に記載の地名抽出プログラム。
(付記4)
丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
混同し易い文字については、丁目または番地として登録された文字に置換する、
ことを特徴とする付記3に記載の地名抽出プログラム。
(付記5)
前記丁目または番地として登録された文字以外の文字以降を削除する、
ことを特徴とする付記3または4に記載の地名抽出プログラム。
(付記6)
文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
投票数が多い上位所定数の地名文字列に、その後の処理に用いる地名文字列の候補を絞り込む、
ことを特徴とする付記1乃至5のいずれか一項に記載の地名抽出プログラム。
(付記7)
文字列を受け付ける受付部と、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字とが共通する文字数がより多く、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する出力部と、
を備えたことを特徴とする地名抽出装置。
(付記8)
前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
ことを特徴とする付記7に記載の地名抽出装置。
(付記9)
前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
ことを特徴とする付記7または8に記載の地名抽出装置。
(付記10)
丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
混同し易い文字については、丁目または番地として登録された文字に置換する、
ことを特徴とする付記9に記載の地名抽出装置。
(付記11)
前記丁目または番地として登録された文字以外の文字以降を削除する、
ことを特徴とする付記9または10に記載の地名抽出装置。
(付記12)
文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
投票数が多い上位所定数の地名文字列に、その後の処理に用いる地名文字列の候補を絞り込む、
ことを特徴とする付記7乃至11のいずれか一項に記載の地名抽出装置。
(付記13)
文字列を受け付け、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字とが共通する文字数がより多く、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
処理をコンピュータが実行することを特徴とする地名抽出方法。
(付記14)
前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
ことを特徴とする付記13に記載の地名抽出方法。
(付記15)
前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
ことを特徴とする付記13または14に記載の地名抽出方法。
(付記16)
丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
混同し易い文字については、丁目または番地として登録された文字に置換する、
ことを特徴とする付記15に記載の地名抽出方法。
(付記17)
前記丁目または番地として登録された文字以外の文字以降を削除する、
ことを特徴とする付記15または16に記載の地名抽出方法。
(付記18)
文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
投票数が多い上位所定数の地名文字列に、その後の処理に用いる地名文字列の候補を絞り込む、
ことを特徴とする付記13乃至17のいずれか一項に記載の地名抽出方法。
認識結果入力部101は受付部の一例である。住所・所在地表記出力部109は出力部の一例である。
1 住所・所在地表記抽出装置
101 認識結果入力部
102 地名候補絞り込み部
103 地名照合部
104 地名区切り文字判定部
105 地名決定部
106 地名修正部
107 丁目番地区切り文字検出部
108 丁目番地修正・決定部
109 住所・所在地表記出力部
111 地名文字情報
112 地名情報
113 丁目番地文字情報

Claims (8)

  1. 文字列を受け付け、
    地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字との編集距離がより小さく、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
    処理をコンピュータに実行させることを特徴とする地名抽出プログラム。
  2. 前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
    処理を前記コンピュータに実行させることを特徴とする請求項1に記載の地名抽出プログラム。
  3. 前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
    処理を前記コンピュータに実行させることを特徴とする請求項1または2に記載の地名抽出プログラム。
  4. 丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
    混同し易い文字については、丁目または番地として登録された文字に置換する、
    処理を前記コンピュータに実行させることを特徴とする請求項3に記載の地名抽出プログラム。
  5. 前記丁目または番地として登録された文字以外の文字以降を削除する、
    処理を前記コンピュータに実行させることを特徴とする請求項3または4に記載の地名抽出プログラム。
  6. 文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
    投票数が多い上位所定数の地名文字列に、前記地名として出力する処理に用いる地名文字列の候補を絞り込む、
    処理を前記コンピュータに実行させることを特徴とする請求項1乃至5のいずれか一項に記載の地名抽出プログラム。
  7. 文字列を受け付ける受付部と、
    地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字との編集距離がより小さく、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する出力部と、
    を備えたことを特徴とする地名抽出装置。
  8. 文字列を受け付け、
    地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字との編集距離がより小さく、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
    処理をコンピュータが実行することを特徴とする地名抽出方法。
JP2016199447A 2016-10-07 2016-10-07 地名抽出プログラム、地名抽出装置および地名抽出方法 Active JP6759955B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016199447A JP6759955B2 (ja) 2016-10-07 2016-10-07 地名抽出プログラム、地名抽出装置および地名抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016199447A JP6759955B2 (ja) 2016-10-07 2016-10-07 地名抽出プログラム、地名抽出装置および地名抽出方法

Publications (2)

Publication Number Publication Date
JP2018060474A JP2018060474A (ja) 2018-04-12
JP6759955B2 true JP6759955B2 (ja) 2020-09-23

Family

ID=61908648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016199447A Active JP6759955B2 (ja) 2016-10-07 2016-10-07 地名抽出プログラム、地名抽出装置および地名抽出方法

Country Status (1)

Country Link
JP (1) JP6759955B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7215975B2 (ja) * 2019-07-30 2023-01-31 富士通フロンテック株式会社 補正候補決定装置、補正候補決定方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325204A (ja) * 1993-05-14 1994-11-25 Sanyo Electric Co Ltd 文字認識後処理装置
JPH07262320A (ja) * 1994-03-18 1995-10-13 Matsushita Electric Ind Co Ltd 住所認識装置
JPH1196308A (ja) * 1997-09-19 1999-04-09 Toshiba Corp 文字情報読取装置および宛名読取装置
JP2004258950A (ja) * 2003-02-26 2004-09-16 Canon Inc 文字認識方法
CN100555308C (zh) * 2005-07-29 2009-10-28 富士通株式会社 地址识别装置和方法
JP6031915B2 (ja) * 2012-09-26 2016-11-24 株式会社バッファロー 画像処理装置及びプログラム

Also Published As

Publication number Publication date
JP2018060474A (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
WO2020218512A1 (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
JP2734386B2 (ja) 文字列読み取り装置
TWI231920B (en) Character recognition apparatus and method
JP4661921B2 (ja) 文書処理装置およびプログラム
US20060045340A1 (en) Character recognition apparatus and character recognition method
US9286526B1 (en) Cohort-based learning from user edits
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
US10438097B2 (en) Recognition device, recognition method, and computer program product
JP4672692B2 (ja) 単語認識システムおよび単語認識プログラム
JP6759955B2 (ja) 地名抽出プログラム、地名抽出装置および地名抽出方法
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
JP2008282094A (ja) 文字認識処理装置
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
JP5134383B2 (ja) Ocr装置、証跡管理装置及び証跡管理システム
JP3768743B2 (ja) ドキュメント画像処理装置及びドキュメント画像処理方法
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JP5188290B2 (ja) アノテーション装置、アノテーション方法およびプログラム
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP2008176625A (ja) 文字認識結果の管理装置およびその方法並びにコンピュータプログラム
JP5669044B2 (ja) 文書検定システム及び文書検定方法
JP7275641B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
US20210200953A1 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium
JP2022097259A (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200817

R150 Certificate of patent or registration of utility model

Ref document number: 6759955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150