JP6304979B2 - 知識処理装置、方法およびプログラム - Google Patents
知識処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP6304979B2 JP6304979B2 JP2013185634A JP2013185634A JP6304979B2 JP 6304979 B2 JP6304979 B2 JP 6304979B2 JP 2013185634 A JP2013185634 A JP 2013185634A JP 2013185634 A JP2013185634 A JP 2013185634A JP 6304979 B2 JP6304979 B2 JP 6304979B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- attribute
- correction target
- name
- replacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0236—Character input methods using selection techniques to select from displayed items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
Description
実施形態の知識処理装置10は、特定部105を備えない構成としてもよい。つまり、知識処理装置10は、修正対象文字列を知識辞書Nと照合して置換文字列を特定する処理を行わず、候補取得条件に従って知識辞書Nから取得される置換文字列の候補のみを用いて、修正対象文字列に対する修正を行うようにしてもよい。この場合、例えば、候補取得条件に従って知識辞書Nから取得される置換文字列の候補に対して修正対象文字列との類似度を求め、類似度によって置換文字列の絞り込みを行う。これにより、置換文字列の絞り込みを適切に行って、修正対象文字列に対する修正を精度よく行うことができる。
実施形態の知識処理装置10は、生成部106が複数の候補取得条件を生成した場合に、提示部102が生成された複数の候補取得条件をユーザに提示し、複数の候補取得条件のそれぞれに対する優先度を指定するユーザ操作を受付部103が受け付ける構成としてもよい。この場合、修正部107は、複数の候補取得条件に従って知識辞書Nから各々取得された置換文字列の候補のうち、優先度が高い候補取得条件に従って取得された置換文字列の候補を優先的に用いて、修正対象文字列に対する修正を行う。
実施形態の知識処理装置10は、修正対象文字列の属性が「姓」属性である場合には、この処理対象文字列に隣接する「名」属性の文字列を条件生成用文字列として用いて候補取得条件を生成し、修正対象文字列の属性が「名」属性である場合には、この処理対象文字列に隣接する「姓」属性の文字列を条件生成用文字列として用いて候補取得条件を生成するように構成してもよい。
101 入力部
102 提示部
103 受付部
104 選択部
105 特定部
106 生成部
107 修正部
108 出力部
D(D’) 文書データ
N 知識辞書
Claims (12)
- 知識辞書を用いて文字列の修正を行う知識処理装置であって、
複数の文字列を含み、文字列ごとに該文字列の属性が付された文書データから、修正対象文字列を選択する選択部と、
前記文書データ中の前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記修正対象文字列を置換する置換文字列の候補を取得する条件を生成する生成部と、
前記条件に従って前記知識辞書から取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行う修正部と、を備え、
前記属性は、文字列が姓名の姓であることを示す姓属性と、文字列が姓名の名であることを示す名属性とを含み、
前記生成部は、前記修正対象文字列の属性が姓属性である場合は、前記修正対象文字列に隣接する他の文字列であって名属性が付された文字列に基づいて前記条件を生成し、前記修正対象文字列の属性が名属性である場合は、前記修正対象文字列に隣接する他の文字列であって姓属性が付された文字列に基づいて前記条件を生成する、知識処理装置。 - 前記条件によらずに前記置換文字列を特定する特定部をさらに備え、
前記生成部は、前記特定部が前記置換文字列を特定できなかった場合に前記条件を生成し、
前記修正部は、前記特定部が前記置換文字列を特定できた場合は、特定された前記置換文字列により前記修正対象文字列を置換し、前記特定部が前記置換文字列を特定できなかった場合は、前記条件に従って取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行う、請求項1に記載の知識処理装置。 - 前記置換文字列の候補をユーザに提示する提示部と、
提示した前記置換文字列の候補を選択するユーザ操作を受け付ける受付部と、をさらに備え、
前記修正部は、選択された前記置換文字列の候補により前記修正対象文字列を置換する、請求項1に記載の知識処理装置。 - 前記文書データをユーザに提示する提示部と、
提示した前記文書データ中の任意の文字列を指定するユーザ操作を受け付ける受付部と、をさらに備え、
前記選択部は、ユーザ操作により指定された文字列を前記修正対象文字列として選択する、請求項1に記載の知識処理装置。 - 前記文書データをユーザに提示する提示部と、
提示した前記文書データ中の任意の文字列を指定するユーザ操作を受け付ける受付部と、をさらに備え、
前記生成部は、ユーザ操作により指定された文字列であって、前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記条件を生成する、請求項1に記載の知識処理装置。 - 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の姓であることを示す姓属性であり、前記他の文字列の属性が、該文字列が住所であることを示す住所属性である場合に、前記他の文字列で示される地域に特有の姓を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
- 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の名であることを示す名属性であり、前記他の文字列の属性が、該文字列が生年月日であることを示す生年月日属性である場合に、前記他の文字列で示される年の人気名を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
- 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の名であることを示す名属性であり、前記他の文字列の属性が、該文字列が生年月日であることを示す生年月日属性である場合に、前記他の文字列で示される年の干支にちなんだ名前を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
- 前記生成部は、前記修正対象文字列の属性が、該文字列が姓名の名であることを示す名属性であり、前記他の文字列の属性が、該文字列が生年月日であることを示す生年月日属性である場合に、前記他の文字列で示される季節にちなんだ名前を前記置換文字列の候補として取得する前記条件を生成する、請求項1に記載の知識処理装置。
- 前記生成部は、複数の前記条件を生成し、
生成した複数の前記条件を提示する提示部と、
提示した複数の前記条件のそれぞれに対する優先度を指定するユーザ操作を受け付ける受付部と、をさらに備え、
前記修正部は、複数の前記条件に従って各々取得された前記置換文字列の候補のうち、前記優先度が高い前記条件に従って取得された前記置換文字列の候補を優先的に用いて、前記修正対象文字列に対する修正を行う、請求項1に記載の知識処理装置。 - 知識辞書を用いて文字列の修正を行う知識処理装置において実行される方法であって、
前記知識処理装置が、複数の文字列を含み、文字列ごとに該文字列の属性が付された文書データから、修正対象文字列を選択するステップと、
前記知識処理装置が、前記文書データ中の前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記修正対象文字列を置換する置換文字列の候補を取得する条件を生成するステップと、
前記知識処理装置が、前記条件に従って前記知識辞書から取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行うステップと、を含み、
前記属性は、文字列が姓名の姓であることを示す姓属性と、文字列が姓名の名であることを示す名属性とを含み、
前記条件を生成するステップでは、前記修正対象文字列の属性が姓属性である場合は、前記修正対象文字列に隣接する他の文字列であって名属性が付された文字列に基づいて前記条件を生成し、前記修正対象文字列の属性が名属性である場合は、前記修正対象文字列に隣接する他の文字列であって姓属性が付された文字列に基づいて前記条件を生成する、方法。 - コンピュータに、
複数の文字列を含み、文字列ごとに該文字列の属性が付された文書データから、修正対象文字列を選択する選択部の機能と、
前記文書データ中の前記修正対象文字列とは属性が異なる他の文字列に基づいて、前記修正対象文字列を置換する置換文字列の候補を取得する条件を生成する生成部の機能と、
前記条件に従って知識辞書から取得された前記置換文字列の候補を用いて、前記修正対象文字列に対する修正を行う修正部の機能と、を実現させるためのプログラムであって、
前記属性は、文字列が姓名の姓であることを示す姓属性と、文字列が姓名の名であることを示す名属性とを含み、
前記生成部は、前記修正対象文字列の属性が姓属性である場合は、前記修正対象文字列に隣接する他の文字列であって名属性が付された文字列に基づいて前記条件を生成し、前記修正対象文字列の属性が名属性である場合は、前記修正対象文字列に隣接する他の文字列であって姓属性が付された文字列に基づいて前記条件を生成する、プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013185634A JP6304979B2 (ja) | 2013-09-06 | 2013-09-06 | 知識処理装置、方法およびプログラム |
CN201410346227.1A CN104424350B (zh) | 2013-09-06 | 2014-07-21 | 知识处理装置以及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013185634A JP6304979B2 (ja) | 2013-09-06 | 2013-09-06 | 知識処理装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015052933A JP2015052933A (ja) | 2015-03-19 |
JP6304979B2 true JP6304979B2 (ja) | 2018-04-04 |
Family
ID=52701916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013185634A Active JP6304979B2 (ja) | 2013-09-06 | 2013-09-06 | 知識処理装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6304979B2 (ja) |
CN (1) | CN104424350B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6679350B2 (ja) * | 2016-03-09 | 2020-04-15 | キヤノン株式会社 | 情報処理装置、プログラム及び情報処理方法 |
CN113095325B (zh) * | 2021-05-11 | 2021-11-09 | 浙江华是科技股份有限公司 | 一种船舶识别方法、装置及计算机可读存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59229683A (ja) * | 1983-06-10 | 1984-12-24 | Toshiba Corp | 認識処理装置 |
JPH10232906A (ja) * | 1997-02-19 | 1998-09-02 | Sharp Corp | 文字認識方法 |
JP3452774B2 (ja) * | 1997-10-16 | 2003-09-29 | 富士通株式会社 | 文字認識方法 |
JP2000148912A (ja) * | 1998-11-09 | 2000-05-30 | Canon Inc | 人名認識装置、人名認識方法、及び記憶媒体 |
JP2000311170A (ja) * | 1999-04-27 | 2000-11-07 | Hitachi Ltd | テキスト情報抽出方法 |
JP2004086619A (ja) * | 2002-08-27 | 2004-03-18 | Toshiba Corp | 姓名漢字検索システム |
JP5462017B2 (ja) * | 2010-02-08 | 2014-04-02 | 沖電気工業株式会社 | 帳票処理システム、エントリ端末および帳票データ処理方法 |
CN103186524B (zh) * | 2011-12-30 | 2016-04-13 | 高德软件有限公司 | 一种地名识别方法和装置 |
-
2013
- 2013-09-06 JP JP2013185634A patent/JP6304979B2/ja active Active
-
2014
- 2014-07-21 CN CN201410346227.1A patent/CN104424350B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015052933A (ja) | 2015-03-19 |
CN104424350B (zh) | 2017-12-01 |
CN104424350A (zh) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
US9704480B2 (en) | Information processing apparatus, method for processing information, and program | |
CN109804363B (zh) | 使用通过示例的格式修改的连接 | |
US20080294982A1 (en) | Providing relevant text auto-completions | |
JP6007784B2 (ja) | 文書分類装置及びプログラム | |
JP5426710B2 (ja) | 検索支援装置、検索支援方法およびプログラム | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
US20200026958A1 (en) | High-dimensional image feature matching method and device | |
JP4136316B2 (ja) | 文字列認識装置 | |
CN101493896B (zh) | 文档图像处理装置及文档图像处理方法 | |
KR102373884B1 (ko) | 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법 | |
US10438097B2 (en) | Recognition device, recognition method, and computer program product | |
JP6304979B2 (ja) | 知識処理装置、方法およびプログラム | |
JP5049965B2 (ja) | データ処理装置及び方法 | |
WO2020065970A1 (ja) | 学習システム、学習方法、及びプログラム | |
JP6847421B2 (ja) | プログラム、情報記憶媒体及び文字列認識装置 | |
JP2017182646A (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JP6677093B2 (ja) | 表データ検索装置、表データ検索方法、及び表データ検索プログラム | |
KR102170844B1 (ko) | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 | |
JP2017049911A (ja) | 文字認識装置、文字認識方法およびプログラム | |
JP2012098905A (ja) | 文字認識装置、文字認識方法及びプログラム | |
US7899251B2 (en) | Balancing out-of-dictionary and in-dictionary recognition scores | |
JP5752073B2 (ja) | データ修正装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6304979 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |