JP5424269B2 - 局所対応抽出装置及び局所対応抽出方法 - Google Patents
局所対応抽出装置及び局所対応抽出方法 Download PDFInfo
- Publication number
- JP5424269B2 JP5424269B2 JP2010202745A JP2010202745A JP5424269B2 JP 5424269 B2 JP5424269 B2 JP 5424269B2 JP 2010202745 A JP2010202745 A JP 2010202745A JP 2010202745 A JP2010202745 A JP 2010202745A JP 5424269 B2 JP5424269 B2 JP 5424269B2
- Authority
- JP
- Japan
- Prior art keywords
- cell
- score
- local correspondence
- local
- correspondence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Description
具体的には、矩形212Aは、局所対応表示エリア211の横軸が示す文字列の一部の「特許を検索」と、縦軸が示す文字列の一部の「特許検索」との間の局所対応である。矩形212Bは、局所対応表示エリア211の横軸が示す文字列の一部の「精度向上」と、縦軸が示す文字列の一部の「精度の向上」との間の局所対応である。
以下、本発明の第2の実施形態を図12〜図15を用いて説明する。
101 CPU
102 メモリ
103 キーボード・マウス
104 ディスプレイ
105 局所対応抽出部
106 局所対応表示制御部
107 通信部
11 ネットワーク
12 検索サーバ
Claims (14)
- 任意の二つの文書間で類似する文字列である局所対応を抽出する局所対応抽出部を備える局所対応抽出装置において、
前記局所対応抽出部は、
前記二つの文書のうち一方の文書を構成する文字列を行とし、他方の文書を構成する文字列を列とし、前記行の文字列を構成する文字及び前記列の文字列を構成する文字に対応するセルに、当該セルに対応する二つの文字の類似度を示すスコアを登録して、第一行列を生成する第一行列生成部と、
前記第一行列のセルに対応するセルによって構成される第二行列のセルのうち前記第一行列生成部によってスコアが算出されたセルに対応するセルに、当該セルに対応する二つの文字が属する局所対応の識別子を登録して、前記第二行列を生成する第二行列生成部と、を有し、
前記第一行列のセルに登録されるスコアは、当該セルに対応する二つの文字の類似度が大きいほど大きい値を示し、
前記第一行列生成部は、
前記スコアの算出対象のセルに隣接するセルのうちすでにスコアが算出されたセルから当該算出対象のセルまでのパスに予め設定された値に基づいて前記算出対象のセルのスコアを算出し、
前記算出されたスコアのうち最大のスコアを前記算出対象のセルのスコアとして登録し、
前記最大のスコアが算出されたパスの起点となる前記セルを遷移元セルとして記憶し、
前記第二行列生成部は、
前記遷移元セルに対応する前記第二行列のセルがどの局所対応にも属しないことを示し、かつ、前記第一行列生成部によって算出された最大のスコアが所定値である場合、前記算出対象のセルに対応する前記第二行列のセルに新たな局所対応の識別子を登録し、前記新たな局所対応の始点として前記算出対象のセルを記憶し、
前記遷移元セルに対応する前記第二行列のセルがいずれかの局所対応に属することを示し、かつ、前記第一行列生成部によって算出された最大のスコアが前記所定値よりも大きい場合、前記算出対象のセルに対応する前記第二行列のセルに、前記遷移元セルに対応する前記第二行列のセルに登録された局所対応の識別子を登録し、さらに、前記算出されたスコアが同じ局所対応に属するセルの最大のスコアよりも大きい場合、前記局所対応の終点として前記算出対象のセルを記憶することを特徴とする局所対応抽出装置。 - 前記第一行列生成部は、
前記第一行列の最も上に位置する行を選択し、前記選択された行の左側の列のセルから順に前記スコアを算出し、
前記選択された行のすべてのセルの前記スコアを算出した場合、当該選択された行の下方に位置する行を選択し、
前記算出対象のセルの上に隣接するセルから当該算出対象のセルまでのパスに基づき前記算出対象のセルのスコアを算出する場合、前記上に隣接するセルのすでに計算されたスコアから第一所定値を減算して前記算出対象のスコアを算出し、
前記算出対象のセルの左に隣接するセルから当該算出対象のセルまでのパスに基づき前記算出対象のセルのスコアを算出する場合、前記左に隣接するセルのすでに計算されたスコアから第二所定値を減算して前記算出対象のスコアを算出し、
前記算出対象のセルの左上に隣接するセルから該算出対象のセルまでのパスに基づき前記算出対象のセルのスコアを算出する場合、当該算出対象のセルに対応する二つの文字が一致するか否かを判定し、
当該算出対象のセルに対応する二つの文字が一致すると判定された場合、前記左上に隣接するセルのすでに計算されたスコアに第三所定値を加算して前記算出対象のスコアを算出し、
当該算出対象のセルに対応する二つの文字が一致しないと判定された場合、前記左上に隣接するセルのすでに計算されたスコアから第四所定値を減算して前記算出対象のスコアを算出することを特徴とする請求項1に記載の局所対応抽出装置。 - 前記第二行列生成部は、
前記二つの文字が一致しないセルが、当該セルが属する前記局所対応の前記終点となるセルから所定回数連続するか否かを判定し、
前記二つの文字が一致しないセルが前記終点となるセルから所定回数連続すると判定された場合、前記第一行列生成部によって算出された最大のスコアが所定値より大きくても、前記算出対象のセルに対応する前記第二行列のセルに新たな局所対応の識別子を登録し、前記算出対象のセルに対応する二つの文字が前記新たな局所対応の始点となることを記憶することを特徴とする請求項1に記載の局所対応抽出装置。 - 前記局所対応抽出部は、
前記第一行列生成部によって算出された最大のスコアが所定値よりも大きくても、前記算出対象のセルに対応する前記第二行列のセルに新たな局所対応の識別子を登録するための前記所定回数をユーザによって入力された値に設定することを特徴とする請求項3に記載の局所対応抽出装置。 - 前記局所対応抽出部によって抽出された局所対応の表示を制御する局所対応表示制御部を備え、
前記局所対応表示制御部は、
前記二つの文書のうち一方の文書を構成する文字列を行とし、他方の文書を構成する文字列を列とする2次元マップ上で、前記局所対応抽出部によって抽出された局所対応の始点と終点とを、矩形によって表示し、
行方向及び列方向の局所対応の分布の一覧を表示することを特徴とする請求項1に記載の局所対応抽出装置。 - 前記局所対応表示制御部は、
前記行方向に存在する局所対応の最大スコアを加算することによって、前記行方向の局所対応の分布を算出し、
前記列方向に存在する局所対応の最大スコアを加算することによって、前記列方向の局所対応の分布を算出することを特徴とする請求項5に記載の局所対応抽出装置。 - 前記局所対応表示制御部は、
前記行方向に存在する局所対応の数を加算することによって、前記行方向の局所対応の分布を算出し、
前記列方向に存在する局所対応の数を加算することによって、前記列方向の局所対応の分布を算出することを特徴とする請求項5に記載の局所対応抽出装置。 - 任意の二つの文書間で類似する文字列である局所対応を抽出する局所対応抽出部を備える局所対応抽出方法において、
前記方法は、
前記二つの文書のうち一方の文書を構成する文字列を行とし、他方の文書を構成する文字列を列とし、前記行の文字列を構成する文字及び前記列の文字列を構成する文字に対応するセルに、当該セルに対応する二つの文字の類似度を示すスコアを登録して、第一行列を生成する第一行列生成ステップと、
前記第一行列のセルに対応するセルによって構成される第二行列のセルのうち前記第一行列生成ステップでスコアが算出されたセルに対応するセルに、当該セルに対応する二つの文字が属する局所対応の識別子を登録して、前記第二行列を生成する第二行列生成ステップと、を含み、
前記第一行列のセルに登録されるスコアは、当該セルに対応する二つの文字の類似度が大きいほど大きい値を示し、
前記第一行列生成ステップは、
前記スコアの算出対象のセルに隣接するセルのうちすでにスコアが算出されたセルから当該算出対象のセルまでのパスに予め設定された値に基づいて前記算出対象のセルのスコアを算出するステップと、
前記算出されたスコアのうち最大のスコアを前記算出対象のセルのスコアとして登録するステップと、
前記最大のスコアが算出されたパスの起点となる前記セルを遷移元セルとして記憶するステップと、を含み、
前記第二行列生成ステップは、
前記遷移元セルに対応する前記第二行列のセルがどの局所対応にも属しないことを示し、かつ、前記第一行列生成ステップで算出された最大のスコアが所定値である場合、前記算出対象のセルに対応する前記第二行列のセルに新たな局所対応の識別子を登録し、前記算出対象のセルに対応する二つの文字が前記新たな局所対応の始点となることを記憶するステップと、
前記遷移元セルに対応する前記第二行列のセルがいずれかの局所対応に属することを示し、かつ、前記第一行列生成ステップで算出された最大のスコアが前記所定値よりも大きい場合、前記算出対象のセルに対応する前記第二行列のセルに、前記遷移元セルに対応する前記第二行列のセルに登録された局所対応の識別子を登録し、さらに、前記算出されたスコアが同じ局所対応に属するセルの最大のスコアよりも大きい場合、前記算出対象のセルに対応する二つの文字が前記局所対応の終点となることを記憶するステップと、を含むことを特徴とする局所対応抽出方法。 - 前記第一行列生成ステップは、
前記第一行列の最も上に位置する行を選択し、前記選択された行の左側の列のセルから順に前記スコアを算出するステップと、
前記選択された行のすべてのセルの前記スコアを算出した場合、当該選択された行の下方に位置する行を選択するステップと、を含み、
前記算出対象のセルの上に隣接するセルから当該算出対象のセルまでのパスに基づき前記算出対象のセルのスコアを算出するステップでは、前記上に隣接するセルのすでに計算されたスコアから第一所定値を減算して前記算出対象のスコアを算出し、
前記算出対象のセルの左に隣接するセルから当該算出対象のセルまでのパスに基づき前記算出対象のセルのスコアを算出するステップでは、前記左に隣接するセルのすでに計算されたスコアから第二所定値を減算して前記算出対象のスコアを算出し、
前記算出対象のセルの左上に隣接するセルから該算出対象のセルまでのパスに基づき前記算出対象のセルのスコアを算出するステップは、当該算出対象のセルに対応する二つの文字が一致するか否かを判定するステップを含み、
当該算出対象のセルに対応する二つの文字が一致すると判定された場合、前記左上に隣接するセルのすでに計算されたスコアに第三所定値を加算して前記算出対象のスコアを算出し、
当該算出対象のセルに対応する二つの文字が一致しないと判定された場合、前記左上に隣接するセルのすでに計算されたスコアから第四所定値を減算して前記算出対象のスコアを算出することを特徴とする請求項8に記載の局所対応抽出方法。 - 前記第二行列生成ステップは、
前記二つの文字が一致しないセルが、当該セルが属する前記局所対応の前記終点となるセルから所定回数連続するか否かを判定するステップと、
前記二つの文字が一致しないセルが前記終点となるセルから所定回数連続すると判定された場合、前記第一行列生成ステップで算出された最大のスコアが所定値よりも大きくても、前記算出対象のセルに対応する前記第二行列のセルに新たな局所対応の識別子を登録し、前記算出対象のセルに対応する二つの文字が前記新たな局所対応の始点となることを記憶するステップと、を含むことを特徴とする請求項8に記載の局所対応抽出方法。 - 前記方法は、前記第一行列生成ステップによって算出された最大のスコアが所定値よりも大きくても、前記算出対象のセルに対応する前記第二行列のセルに新たな局所対応の識別子を登録するための前記所定回数をユーザによって入力された値に設定するステップを含むことを特徴とする請求項10に記載の局所対応抽出方法。
- 前記方法は、前記局所対応抽出部によって抽出された局所対応の表示を制御する局所対応表示制御ステップを含み、
前記局所対応表示制御ステップは、
前記二つの文書のうち一方の文書を構成する文字列を行とし、他方の文書を構成する文字列を列とする2次元マップ上で、前記局所対応抽出部によって抽出された局所対応の始点と終点とを、矩形によって表示するステップと、
行方向及び列方向の局所対応の分布の一覧を表示するステップと、を含むことを特徴とする請求項8に記載の局所対応抽出方法。 - 前記局所対応表示制御ステップは、
前記行方向に存在する局所対応の最大スコアを加算することによって、前記行方向の局所対応の分布を算出するステップと、
前記列方向に存在する局所対応の最大スコアを加算することによって、前記列方向の局所対応の分布を算出するステップと、を含むことを特徴とする請求項12に記載の局所対応抽出方法。 - 前記局所対応表示制御ステップは、
前記行方向に存在する局所対応の数を加算することによって、前記行方向の局所対応の分布を算出するステップと、
前記列方向に存在する局所対応の数を加算することによって、前記列方向の局所対応の分布を算出するステップと、を含むことを特徴とする請求項12に記載の局所対応抽出方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010202745A JP5424269B2 (ja) | 2010-09-10 | 2010-09-10 | 局所対応抽出装置及び局所対応抽出方法 |
CN201110241220XA CN102402567B (zh) | 2010-09-10 | 2011-08-22 | 局部对应抽出装置以及局部对应抽出方法 |
US13/221,939 US8879853B2 (en) | 2010-09-10 | 2011-08-31 | System, method and program for enumerating local alignments from pair of documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010202745A JP5424269B2 (ja) | 2010-09-10 | 2010-09-10 | 局所対応抽出装置及び局所対応抽出方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2012059100A JP2012059100A (ja) | 2012-03-22 |
JP2012059100A5 JP2012059100A5 (ja) | 2013-02-14 |
JP5424269B2 true JP5424269B2 (ja) | 2014-02-26 |
Family
ID=45806258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010202745A Active JP5424269B2 (ja) | 2010-09-10 | 2010-09-10 | 局所対応抽出装置及び局所対応抽出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8879853B2 (ja) |
JP (1) | JP5424269B2 (ja) |
CN (1) | CN102402567B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5453577B1 (ja) * | 2013-05-29 | 2014-03-26 | 楽天株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
JP6365274B2 (ja) * | 2014-12-04 | 2018-08-01 | 富士通株式会社 | 共通操作情報生成プログラム、共通操作情報生成方法、及び共通操作情報生成装置 |
JP6976537B1 (ja) * | 2020-10-08 | 2021-12-08 | 株式会社Fronteo | 情報検索装置、情報検索方法および情報検索用プログラム |
US12061637B2 (en) * | 2022-09-11 | 2024-08-13 | Microsoft Technology Licensing, Llc | Heuristic identification of shared substrings between text documents |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0793370A (ja) * | 1993-09-27 | 1995-04-07 | Hitachi Device Eng Co Ltd | 遺伝子データベース検索システム |
US6782505B1 (en) * | 1999-04-19 | 2004-08-24 | Daniel P. Miranker | Method and system for generating structured data from semi-structured data sources |
US6546383B1 (en) * | 1999-06-09 | 2003-04-08 | Ricoh Company, Ltd. | Method and device for document retrieval |
US7146031B1 (en) * | 2000-11-22 | 2006-12-05 | R2 Technology, Inc. | Method and system for automatic identification and orientation of medical images |
JP3868859B2 (ja) | 2002-06-28 | 2007-01-17 | 独立行政法人科学技術振興機構 | 類似部分文字列検出方法、類似部分文字列検出装置、類似部分文字列検出プログラム、および該プログラムを記録した記録媒体 |
JP2006072512A (ja) * | 2004-08-31 | 2006-03-16 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
US8301637B2 (en) * | 2007-07-27 | 2012-10-30 | Seiko Epson Corporation | File search system, file search device and file search method |
JP5060340B2 (ja) * | 2008-02-25 | 2012-10-31 | 日本電信電話株式会社 | 類似部分シーケンス検出方法、類似部分シーケンス検出プログラム、および、類似部分シーケンス検出装置 |
US8515208B2 (en) * | 2010-04-05 | 2013-08-20 | Kofax, Inc. | Method for document to template alignment |
-
2010
- 2010-09-10 JP JP2010202745A patent/JP5424269B2/ja active Active
-
2011
- 2011-08-22 CN CN201110241220XA patent/CN102402567B/zh not_active Expired - Fee Related
- 2011-08-31 US US13/221,939 patent/US8879853B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012059100A (ja) | 2012-03-22 |
US20120062589A1 (en) | 2012-03-15 |
CN102402567B (zh) | 2013-12-11 |
US8879853B2 (en) | 2014-11-04 |
CN102402567A (zh) | 2012-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11720633B2 (en) | Aggregating personalized suggestions from multiple sources | |
US9710526B2 (en) | Data set preview technology | |
KR102310650B1 (ko) | 검색 결과에서의 논리적인 질문 응답 기법 | |
US8930360B2 (en) | System and method for online handwriting recognition in web queries | |
US20140075393A1 (en) | Gesture-Based Search Queries | |
WO2015176525A1 (zh) | 基于时间序列化的文档的标识、关联、搜索及展现的系统 | |
US20120167006A1 (en) | Method and system for user interface quick filter | |
AU2016201273B2 (en) | Recommending form fragments | |
US10885148B2 (en) | System and method for medical classification code modeling | |
JP5424269B2 (ja) | 局所対応抽出装置及び局所対応抽出方法 | |
US9141867B1 (en) | Determining word segment boundaries | |
CN112765159A (zh) | 报表生成方法、系统、计算机设备和存储介质 | |
US10877984B1 (en) | Systems and methods for filtering and visualizing large scale datasets | |
JP2018503917A (ja) | キーワードに基づくテキスト検索の方法及び装置 | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
EP2026216A1 (en) | Data processing method, computer program product and data processing system | |
JP5826148B2 (ja) | 図面管理サーバ及びこれを用いた図面管理システム | |
CN104516632B (zh) | 确定触摸字符进行搜索的方法及装置 | |
JP6524668B2 (ja) | 文書検索装置、文書検索方法、プログラム、 | |
RU2623901C2 (ru) | Осуществимый компьютером способ переработки машиночитаемой информации | |
KR20130019176A (ko) | 전자책 상에서 애너테이션이 작성된 항목을 추출 및 제공하는 방법 및 그 시스템 | |
CN116474368A (zh) | 游戏资源处理方法、装置、终端设备及存储介质 | |
JP2024095090A (ja) | 情報検索装置 | |
KR20140025712A (ko) | 제품 이미지 제공방법 | |
CN114564554A (zh) | 一种数据检索方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120322 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121220 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131120 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5424269 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |