JP6759955B2 - 地名抽出プログラム、地名抽出装置および地名抽出方法 - Google Patents
地名抽出プログラム、地名抽出装置および地名抽出方法 Download PDFInfo
- Publication number
- JP6759955B2 JP6759955B2 JP2016199447A JP2016199447A JP6759955B2 JP 6759955 B2 JP6759955 B2 JP 6759955B2 JP 2016199447 A JP2016199447 A JP 2016199447A JP 2016199447 A JP2016199447 A JP 2016199447A JP 6759955 B2 JP6759955 B2 JP 6759955B2
- Authority
- JP
- Japan
- Prior art keywords
- place name
- character string
- character
- characters
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図2は住所・所在地表記抽出装置(情報処理装置)1の機能構成例を示す図である。図2において、住所・所在地表記抽出装置1は、認識結果入力部101と地名候補絞り込み部102と地名照合部103と地名区切り文字判定部104と地名決定部105と地名修正部106とを備えている。また、住所・所在地表記抽出装置1は、丁目番地区切り文字検出部107と丁目番地修正・決定部108と住所・所在地表記出力部109とを備えている。更に、住所・所在地表記抽出装置1は、処理に際して参照する情報として、地名文字情報111と地名情報112と丁目番地文字情報113とを備えている。
図4は上記の実施形態の処理例を示すフローチャートである。図4において、住所・所在地表記抽出装置1が処理を開始すると、認識結果入力部101は、住所・所在地表記を含む文字認識結果である文字列(認識結果文字列)のテキストデータを入力(受付)する(ステップS101)。
以上説明したように、本実施形態によれば、不完全な地名を含む文字列から正確な地名の文字列を抽出することができる。また、住所・所在地表記の全体についても正確な文字列を抽出することができる。
(付記1)
文字列を受け付け、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字とが共通する文字数がより多く、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
処理をコンピュータに実行させることを特徴とする地名抽出プログラム。
(付記2)
前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
ことを特徴とする付記1に記載の地名抽出プログラム。
(付記3)
前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
ことを特徴とする付記1または2に記載の地名抽出プログラム。
(付記4)
丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
混同し易い文字については、丁目または番地として登録された文字に置換する、
ことを特徴とする付記3に記載の地名抽出プログラム。
(付記5)
前記丁目または番地として登録された文字以外の文字以降を削除する、
ことを特徴とする付記3または4に記載の地名抽出プログラム。
(付記6)
文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
投票数が多い上位所定数の地名文字列に、その後の処理に用いる地名文字列の候補を絞り込む、
ことを特徴とする付記1乃至5のいずれか一項に記載の地名抽出プログラム。
(付記7)
文字列を受け付ける受付部と、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字とが共通する文字数がより多く、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する出力部と、
を備えたことを特徴とする地名抽出装置。
(付記8)
前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
ことを特徴とする付記7に記載の地名抽出装置。
(付記9)
前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
ことを特徴とする付記7または8に記載の地名抽出装置。
(付記10)
丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
混同し易い文字については、丁目または番地として登録された文字に置換する、
ことを特徴とする付記9に記載の地名抽出装置。
(付記11)
前記丁目または番地として登録された文字以外の文字以降を削除する、
ことを特徴とする付記9または10に記載の地名抽出装置。
(付記12)
文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
投票数が多い上位所定数の地名文字列に、その後の処理に用いる地名文字列の候補を絞り込む、
ことを特徴とする付記7乃至11のいずれか一項に記載の地名抽出装置。
(付記13)
文字列を受け付け、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字とが共通する文字数がより多く、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
処理をコンピュータが実行することを特徴とする地名抽出方法。
(付記14)
前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
ことを特徴とする付記13に記載の地名抽出方法。
(付記15)
前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
ことを特徴とする付記13または14に記載の地名抽出方法。
(付記16)
丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
混同し易い文字については、丁目または番地として登録された文字に置換する、
ことを特徴とする付記15に記載の地名抽出方法。
(付記17)
前記丁目または番地として登録された文字以外の文字以降を削除する、
ことを特徴とする付記15または16に記載の地名抽出方法。
(付記18)
文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
投票数が多い上位所定数の地名文字列に、その後の処理に用いる地名文字列の候補を絞り込む、
ことを特徴とする付記13乃至17のいずれか一項に記載の地名抽出方法。
101 認識結果入力部
102 地名候補絞り込み部
103 地名照合部
104 地名区切り文字判定部
105 地名決定部
106 地名修正部
107 丁目番地区切り文字検出部
108 丁目番地修正・決定部
109 住所・所在地表記出力部
111 地名文字情報
112 地名情報
113 丁目番地文字情報
Claims (8)
- 文字列を受け付け、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字との編集距離がより小さく、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
処理をコンピュータに実行させることを特徴とする地名抽出プログラム。 - 前記文字列に含まれる地名の文字列を、出力する前記地名文字列に置換する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の地名抽出プログラム。 - 前記文字列に含まれる地名以降の文字列の内、該文字列の先頭から丁目または番地として登録された文字以外の文字の手前の文字までを丁目または番地を示す文字として特定する、
処理を前記コンピュータに実行させることを特徴とする請求項1または2に記載の地名抽出プログラム。 - 丁目または番地として登録された文字は、丁目または番地として登録された文字と混同し易い文字を含み、
混同し易い文字については、丁目または番地として登録された文字に置換する、
処理を前記コンピュータに実行させることを特徴とする請求項3に記載の地名抽出プログラム。 - 前記丁目または番地として登録された文字以外の文字以降を削除する、
処理を前記コンピュータに実行させることを特徴とする請求項3または4に記載の地名抽出プログラム。 - 文字列を受け付けた直後に、地名文字列と該地名文字列に含まれる文字との対応付けを記憶した記憶部を参照して、前記文字列に含まれる文字に合致する文字を含む地名文字列に投票を行い、
投票数が多い上位所定数の地名文字列に、前記地名として出力する処理に用いる地名文字列の候補を絞り込む、
処理を前記コンピュータに実行させることを特徴とする請求項1乃至5のいずれか一項に記載の地名抽出プログラム。 - 文字列を受け付ける受付部と、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字との編集距離がより小さく、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する出力部と、
を備えたことを特徴とする地名抽出装置。 - 文字列を受け付け、
地名文字列を記憶する記憶部を参照して、前記文字列に含まれる文字と前記地名文字列に含まれる文字との編集距離がより小さく、且つ、前記地名文字列の末尾から少なくとも1以上の文字が前記文字列に含まれる地名文字列を、前記文字列に含まれる地名として出力する、
処理をコンピュータが実行することを特徴とする地名抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016199447A JP6759955B2 (ja) | 2016-10-07 | 2016-10-07 | 地名抽出プログラム、地名抽出装置および地名抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016199447A JP6759955B2 (ja) | 2016-10-07 | 2016-10-07 | 地名抽出プログラム、地名抽出装置および地名抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018060474A JP2018060474A (ja) | 2018-04-12 |
JP6759955B2 true JP6759955B2 (ja) | 2020-09-23 |
Family
ID=61908648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016199447A Active JP6759955B2 (ja) | 2016-10-07 | 2016-10-07 | 地名抽出プログラム、地名抽出装置および地名抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6759955B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7215975B2 (ja) * | 2019-07-30 | 2023-01-31 | 富士通フロンテック株式会社 | 補正候補決定装置、補正候補決定方法およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06325204A (ja) * | 1993-05-14 | 1994-11-25 | Sanyo Electric Co Ltd | 文字認識後処理装置 |
JPH07262320A (ja) * | 1994-03-18 | 1995-10-13 | Matsushita Electric Ind Co Ltd | 住所認識装置 |
JPH1196308A (ja) * | 1997-09-19 | 1999-04-09 | Toshiba Corp | 文字情報読取装置および宛名読取装置 |
JP2004258950A (ja) * | 2003-02-26 | 2004-09-16 | Canon Inc | 文字認識方法 |
CN100555308C (zh) * | 2005-07-29 | 2009-10-28 | 富士通株式会社 | 地址识别装置和方法 |
JP6031915B2 (ja) * | 2012-09-26 | 2016-11-24 | 株式会社バッファロー | 画像処理装置及びプログラム |
-
2016
- 2016-10-07 JP JP2016199447A patent/JP6759955B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018060474A (ja) | 2018-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4829920B2 (ja) | フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置 | |
WO2020218512A1 (ja) | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム | |
TWI321294B (en) | Method and device for determining at least one recognition candidate for a handwritten pattern | |
JP2734386B2 (ja) | 文字列読み取り装置 | |
TWI231920B (en) | Character recognition apparatus and method | |
JP4661921B2 (ja) | 文書処理装置およびプログラム | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
US9286526B1 (en) | Cohort-based learning from user edits | |
JP2014013534A (ja) | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム | |
US10438097B2 (en) | Recognition device, recognition method, and computer program product | |
JP4672692B2 (ja) | 単語認識システムおよび単語認識プログラム | |
JP6759955B2 (ja) | 地名抽出プログラム、地名抽出装置および地名抽出方法 | |
CN111291535A (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
JP2008282094A (ja) | 文字認識処理装置 | |
JP5169648B2 (ja) | 原画像探索装置及び原画像探索プログラム | |
JP5134383B2 (ja) | Ocr装置、証跡管理装置及び証跡管理システム | |
JP3768743B2 (ja) | ドキュメント画像処理装置及びドキュメント画像処理方法 | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP5188290B2 (ja) | アノテーション装置、アノテーション方法およびプログラム | |
JP4677750B2 (ja) | 文書属性取得方法および装置並びにプログラムを記録した記録媒体 | |
JP2008176625A (ja) | 文字認識結果の管理装置およびその方法並びにコンピュータプログラム | |
JP5669044B2 (ja) | 文書検定システム及び文書検定方法 | |
JP7275641B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
US20210200953A1 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium | |
JP2022097259A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200709 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6759955 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |