JP6348787B2 - データ処理装置およびデータ処理方法 - Google Patents
データ処理装置およびデータ処理方法 Download PDFInfo
- Publication number
- JP6348787B2 JP6348787B2 JP2014136418A JP2014136418A JP6348787B2 JP 6348787 B2 JP6348787 B2 JP 6348787B2 JP 2014136418 A JP2014136418 A JP 2014136418A JP 2014136418 A JP2014136418 A JP 2014136418A JP 6348787 B2 JP6348787 B2 JP 6348787B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- characters
- candidate
- input data
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000605 extraction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 6
- 238000000034 method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Description
また、近似率を算出する際に、寄与率の高い順に、編集距離、前方一致文字数、最長共通部分列の文字数とすることを特徴とする。本発明のその他の態様については、後記する実施形態において説明する。
図1は、本発明の実施形態に係るデータ処理装置を示す図である。クライアント200から入力された商品の型番を認証するためのデータ処理装置100は、商品カタログのデータベース70と、入力された入力データがデータベース70に格納されているか否か検索し、入力データがデータベース70に格納されていなかった場合に、入力データと類似する候補データをデータベース70から抽出する処理部10と、抽出する際に使用される抽出条件情報などを入力する入力部81、処理結果を表示する表示部82、およびネットワーク300を介してクライアント200などと通信を行う通信部85から構成される。
本実施形態では、算出部30が入力データに対する候補データの近似率を算出する。近似率の算出には、複数の指標を用いる。すなわち、型番の誤入力に対する修正候補を抽出する際に、候補の順序付けを行うために、下記の3つの指標を用いる。各指標には、表1のようなメリット、デメリットがある。
(A)編集距離:d
(B)前方一致の文字数:Npre
(C)最長共通部分列の文字数:lLCS
(A)の編集距離は、値が小さいほど入力データと候補データは近い、
(B)に基づく前方一致の距離は、LG−Npreの値が小さいほど入力データと候補データは近い、
(C)に基づく最長共通部分列の距離は、LG−lLCSの値が小さいほど入力データと候補データは近い、と考えられる。
ここでは、
最重要視する次元の目盛りの距離1の目盛り幅は1/(LG+1) 、
次に重要視する次元の目盛りの距離1の目盛り幅は1/(LG+1)2 ,
最後の次元の目盛りの距離1の目盛り幅は1/(LG+1)3
となる。
LG=9, d=0, Npre=9, lLCS=9(文字数9の入力データと完全一致の場合)とすると、
近似率 = 9/10 + 9/100 + 9/1000 = 0.9 + 0.09 + 0.009 = 0.999 となる。
同様に、
LG=5, d=0, Npre=5, lLCS=5(文字数5の入力データと完全一致の場合)とすると、
近似率 = 5/6 + 5/36 + 5/216 = 0.8333 + 0.1388 + 0.0231 = 0.995 となる。
同様に、
LG=15, d=0, Npre=15, lLCS=15(文字数15の入力データと完全一致の場合)とすると、
近似率 = 15/16 + 15/256 + 15/4096 = 0.93750 + 0.05859 + 0.00366 = 0.99975 となる。
LG=9, d=1, Npre=5, lLCS=6の場合、
近似率 = 8/10 + 5/100 + 6/1000 = 0.8 + 0.05 + 0.006 = 0.856 となる。
同様に、
LG=9, d=1, Npre=4, lLCS=7の場合、
近似率 = 8/10 + 4/100 + 7/1000 = 0.8 + 0.04 + 0.007 = 0.847 となる。
LG=9, d=1, Npre=4, lLCS=3の場合、
近似率 = 8/10 + 4/100 + 3/1000 = 0.8 + 0.04 + 0.003 = 0.843 となる。
LG=5, d=1, Npre=3, lLCS=2の場合、
近似率 = 4/6 + 3/36 + 2/216 = 0.6666 + 0.0833 + 0.0092 = 0.759 となる。
LG=5, d=1, Npre=2, lLCS=3の場合、
近似率 = 4/6 + 2/36 + 3/216 = 0.6666 + 0.0555 + 0.0138 = 0.736 となる。
LG=5, d=1, Npre=2, lLCS=2の場合、
近似率 = 4/6 + 2/36 + 2/216 = 0.6666 + 0.0555 + 0.0092 = 0.731 となる。
LG=15, d=2, Npre=5, lLCS=6の場合、
近似率 = 13/16 + 5/256 + 6/4096 = 0.8125 + 0.0195 +0.00146 = 0.8334 となる。
LG=15, d=2, Npre=4, lLCS=7の場合、
近似率 = 13/16 + 4/256 + 7/4096 = 0.8125 + 0.0156 + 0.0017 = 0.8298 となる。
LG=15, d=2, Npre=4, lLCS=6の場合、
近似率 = 13/16 +4/256 + 6/4096 = 0.8125 + 0.0156 + 0.00146 = 0.8296 となる。
近似率=A(LG−d)+BNpre+CILCS ・・・(2)
であってもよい。
図4は、入力判定処理を示すフローチャートである。適宜図1を参照して説明する。入力判定処理S110は、検索部20がクライアント200から発注データを受理すると、発注データに含まれる型番を対象データとして、データベース70に格納されているか否かを検索する処理である。入力データは、例えば、「8101A−81」である。
図5は、誤入力処理を示すフローチャートである。図6は、修正候補例の抽出を示す図であり、(a)は入力データの例であり、(b)は図2に示したカタログ型番72の候補データを近似率が高い順に並べ替え後の近似率結果情報73である。適宜図1を参照して説明する。
「8101A−81という型番は存在しません。もしかしてこちらではないですか?
8111−A81、811281、T10−15−81、810−13−28という表示がされる。顧客は、発注の入力間違いがあるとすばやく気づくことができ、例えば、8111−A81が入力される。
図8は、候補提示部の提示方法の一例を示す図であり、(a)は入力データの例であり、(b)は抽出部40が抽出した抽出結果情報78であり、(c)は候補提示部50が提示する際に再編集した編集結果情報79である。候補提示部50は、前記したようにクライアント200に修正候補のデータを提示する機能を有するが、提示する際に顧客が見やすいように提示する機能も有する。すなわち、候補提示部50は、近似率が同じであれば、同類はまとめて表示することでユーザの可読性と選択のしやすさを向上させる。まとめは数字部分のみが異なる重複候補をまとめる。このとき、ワイルドカードとして、任意の数値の文字列を示す「■」(黒四角)を用いる。
SJR−4023S−305W−ジクツキ
TIC0.3(アオ)
TIC0.3(アカ)
SNSS−#10−24X1・1/4
SNSS−#10−32X1・1/4
%MDDCP−NATO−DEPL10−817.9−NHC(E84)−ズメンNO.03−1207−0729
ここでは、(1)式をさらに汎用的にした近似率である(3)式について説明する。
なお、LG :入力データの文字数
d :編集距離
Npre:前方一致の文字数
lLCS:最長共通部分列の文字数
δd0 :変数(d=0のとき1、d>0のとき0)
k0 :変数(データベースの特性により設定)
d=0のとき、{ }の中は1になるので近似率はk0となる。
d>0のとき、{ }の中は1未満になるので近似率はk0未満になる。
dが大きいとき、近似率は負になる場合がある。そのときは近似率を0とする。
(I)変数δd0を導入することにより、入力データと編集距離が完全一致の場合においても、近似率がk0と設定できる。例えば、
LG=9, d=0, Npre=9, lLCS=9, δd0=1(文字数9の入力データと完全一致の場合)とすると、近似率 = k0(10/10 + 0/100 + 0/1000) = k0 となる。
同様に、LG=5, d=0, Npre=5, lLCS=5, δd0=1(文字数5の入力データと完全一致の場合)とすると、近似率 = k0(6/6 + 0/36 + 0/216) = k0 となる。
同様に、LG=15, d=0, Npre=15, lLCS=15, δd0=1(文字数15の入力データと完全一致の場合)とすると、近似率 =k0(16/16 + 0/256 + 0/4096)= k0 となる。
0≦ 近似率 ≦1
の範囲にあり、わかりやすい値として管理することができる。
20 検索部
30 算出部
31 編集距離算出部
32 前方一致文字数算出部
33 最長共通部分列文字数算出部
34 近似率算出部
40 抽出部
50 候補提示部
70 データベース
71 カタログDB
72 カタログ型番DB
73 近似率結果情報
74 抽出条件情報
100 データ処理装置
200 クライアント
300 ネットワーク
S110 入力判定処理
S130 誤入力処理
Claims (5)
- 文字列で構成される候補データが記憶されているデータベースと、
入力された入力データに対する修正候補を前記データベースから抽出する際に、
前記入力データの文字数と、
前記入力データと前記候補データとの編集距離と、
前記入力データと前記候補データとの前方一致文字数と、
前記入力データと前記候補データとの最長共通部分列の文字数と、に基づき近似率を算出する算出部と、
前記算出部で算出された近似率が所定値以上のデータを前記修正候補として抽出する抽出部と、を有し、
前記近似率は、前記入力データの文字数をLG、前記編集距離をd、前記前方一致文字数をNpre、前記最長共通部分列の文字数をILCSとすると、
(LG−d)/(LG+1)+Npre/(LG+1)2+ILCS/(LG+1)3
である
ことを特徴とするデータ処理装置。 - 文字列で構成される候補データが記憶されているデータベースと、
入力された入力データに対する修正候補を前記データベースから抽出する際に、
前記入力データの文字数と、
前記入力データと前記候補データとの編集距離と、
前記入力データと前記候補データとの前方一致文字数と、
前記入力データと前記候補データとの最長共通部分列の文字数と、に基づき近似率を算出する算出部と、
前記算出部で算出された近似率が所定値以上のデータを前記修正候補として抽出する抽出部と、を有し、
前記近似率は、前記入力データの文字数をLG、前記編集距離をd、前記前方一致文字数をNpre、前記最長共通部分列の文字数をILCSとした場合、前記編集距離が0のとき1となり前記編集距離が1以上のとき0となる変数δd0とすると、
(LG+δd0−d)/(LG+1)+Npre(1−δd0)/(LG+1)2+ILCS(1−δd0)/(LG+1)3
である
ことを特徴とするデータ処理装置。 - 前記データ処理装置は、さらに、
前記抽出部で抽出された修正候補を、クライアントに提示する候補提示部を有し、前記候補提示部は、前記修正候補を提示する際に、文字列で数字部分のみが異なる候補は、同類としてまとめる
ことを特徴とする請求項1または請求項2に記載のデータ処理装置。 - データ処理装置は、データベースと、処理部とを有し、
前記データベースには、文字列で構成される候補データが記憶されており、
前記処理部は、
入力された入力データに対する修正候補を前記データベースから抽出する際に、前記入力データの文字数をL G 、前記入力データと前記候補データとの編集距離をd、前記入力データと前記候補データとの前方一致文字数をN pre 、前記入力データと前記候補データとの最長共通部分列の文字数をI LCS とすると、
(L G −d)/(L G +1)+N pre /(L G +1) 2 +I LCS /(L G +1) 3
とする近似率を算出し、
前記算出された近似率が所定値以上のデータを前記修正候補として抽出する
ことを特徴とするデータ処理方法。 - データ処理装置は、データベースと、処理部とを有し、
前記データベースには、文字列で構成される候補データが記憶されており、
前記処理部は、
入力された入力データに対する修正候補を前記データベースから抽出する際に、前記入力データの文字数をL G 、前記入力データと前記候補データとの編集距離をd、前記入力データと前記候補データとの前方一致文字数をN pre 、前記入力データと前記候補データとの最長共通部分列の文字数をI LCS とした場合、前記編集距離が0のとき1となり前記編集距離が1以上のとき0となる変数δ d0 とすると、
(L G +δ d0 −d)/(L G +1)+N pre (1−δ d0 )/(L G +1) 2 +I LCS (1−δ d0 )/(L G +1) 3
である近似率を算出し、
前記算出された近似率が所定値以上のデータを前記修正候補として抽出する
ことを特徴とするデータ処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014136418A JP6348787B2 (ja) | 2014-07-02 | 2014-07-02 | データ処理装置およびデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014136418A JP6348787B2 (ja) | 2014-07-02 | 2014-07-02 | データ処理装置およびデータ処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016014998A JP2016014998A (ja) | 2016-01-28 |
JP6348787B2 true JP6348787B2 (ja) | 2018-06-27 |
Family
ID=55231140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014136418A Active JP6348787B2 (ja) | 2014-07-02 | 2014-07-02 | データ処理装置およびデータ処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6348787B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6679350B2 (ja) * | 2016-03-09 | 2020-04-15 | キヤノン株式会社 | 情報処理装置、プログラム及び情報処理方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05257982A (ja) * | 1992-02-14 | 1993-10-08 | Nippon Telegr & Teleph Corp <Ntt> | 文字列認識方法 |
JP2820183B2 (ja) * | 1992-08-28 | 1998-11-05 | 日本電気株式会社 | 文字列比較方法 |
JPH08115327A (ja) * | 1994-10-19 | 1996-05-07 | Fuji Xerox Co Ltd | 情報検索装置 |
JP4705430B2 (ja) * | 2005-07-29 | 2011-06-22 | チームラボ株式会社 | 距離の概念に基づく言語処理装置 |
WO2007132564A1 (ja) * | 2006-05-13 | 2007-11-22 | Justsystems Corporation | データ処理装置及び方法 |
-
2014
- 2014-07-02 JP JP2014136418A patent/JP6348787B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016014998A (ja) | 2016-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9767144B2 (en) | Search system with query refinement | |
JP6843882B2 (ja) | 履歴ログからの学習と、etlツール内のデータアセットに関するデータベースオペレーションの推奨 | |
US8566303B2 (en) | Determining word information entropies | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
US11562262B2 (en) | Model variable candidate generation device and method | |
TW201530330A (zh) | 檢索裝置、檢索方法、程式及記憶媒體 | |
US20150379081A1 (en) | Synonym expansion | |
CN108280197A (zh) | 一种识别同源二进制文件的方法及系统 | |
CN110472834B (zh) | 一种推送课程的方法、装置、存储介质和服务器 | |
US20190205299A1 (en) | Library search apparatus, library search system, and library search method | |
JP6348787B2 (ja) | データ処理装置およびデータ処理方法 | |
JPWO2007088576A1 (ja) | ファイル検索プログラム、方法及び装置 | |
WO2017065891A1 (en) | Automated join detection | |
JP2005149414A (ja) | プロジェクトリスクの検索方法、評価システム及び共通データベース活用方法 | |
JP5945206B2 (ja) | 商品推薦装置及び方法及びプログラム | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
JP2018073354A (ja) | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム | |
JP2012138027A (ja) | 情報検索システム、検索キーワード提示方法、およびプログラム | |
JP2017224240A (ja) | 表データ検索装置、表データ検索方法、及び表データ検索プログラム | |
JP6390085B2 (ja) | プログラム、情報処理装置、及び、情報処理方法 | |
CN112149402B (zh) | 文档对比方法、装置、电子设备和计算机可读存储介质 | |
JP6143638B2 (ja) | データ処理装置およびデータ処理方法 | |
JP6402600B2 (ja) | データベース装置、データ管理方法、及びプログラム | |
JP6143606B2 (ja) | データ処理装置およびデータ処理方法 | |
CN113076322A (zh) | 一种商品搜索处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170417 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180601 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6348787 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |