JP7041963B2 - 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム - Google Patents
標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム Download PDFInfo
- Publication number
- JP7041963B2 JP7041963B2 JP2019037049A JP2019037049A JP7041963B2 JP 7041963 B2 JP7041963 B2 JP 7041963B2 JP 2019037049 A JP2019037049 A JP 2019037049A JP 2019037049 A JP2019037049 A JP 2019037049A JP 7041963 B2 JP7041963 B2 JP 7041963B2
- Authority
- JP
- Japan
- Prior art keywords
- item name
- standard
- item
- unit
- synonymous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
こうすることで、複数の帳票において同じ意味として用いられている項目名に対する標準的な項目名を設定できる。
こうすることで、標準項目名設定の処理に入れたくない項目名を予め引当不可条件として設定することで、処理対象外とすることができる。また、引当不可条件を更新可能に設定しておけば、条件を更新することで、標準項目名を選択する基礎となる項目名の中に、適切でない項目名が混入することを防止できる。これにより、標準項目名としてより適切な項目名を設定することができる。
異義語を含む項目名は誤分類の可能性があるため、上記の構成によれば、標準項目名を選択する基礎となる項目名から異義語を含む項目名を除外できる。これにより、標準項目名としてより適切な項目名を設定することができる。
こうすることで、同義関係にある項目名のうち標準項目として最も相応しいものを選択できる。
こうすることで、同義関係にある項目名の中に標準項目に相応しいものがない場合であっても、標準項目名の候補を生成し、標準項目名の候補に基づいて標準項目名を設定できる。
こうすることで、第2分類部では同義項目名として分類されなかった同義関係にある項目名が、第3分類部では同義であると判定され、同義項目グループが徐々に適切な同義項目名の集合となり、その結果、適切な標準項目名の設定が行える。
こうすることで、複数の帳票において同じ意味として用いられている項目名に対する標準的な項目名を設定できる。
こうすることで、複数の帳票において同じ意味として用いられている項目名に対する標準的な項目名を設定できる。
なお、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。すなわち、以下に説明するシステムの構成、データ、処理等については、本発明の趣旨を逸脱することなく、変更、改良され得るとともに、本発明にはその等価物が含まれる。
図1に示されるように、情報処理システム1は、標準項目名設定装置10及び帳票処理装置30を備える。標準項目名設定装置10と帳票処理装置30とは、例えば図示しないインターネットやイントラネット等のネットワークを介して通信可能に接続される。
スキャナ40は、紙媒体を光学走査することにより画像情報を取り込む装置である。本実施形態では、スキャナ40は、帳票Pをスキャンしたスキャン画像(画像情報)を、帳票処理装置30に出力する。
帳票Pは、帳簿、伝票、申請書等の定型的な書類である。本実施形態では、多種類の帳票Pをスキャナ40により取り込み、帳票処理装置30に出力することとする。なお、標準項目名を設定する際の処理対象とする複数の帳票Pは、それぞれ同一手続きの帳票Pとする。具体的には、例えば出生届という手続きについて各種自治体で用いられているそれぞれの帳票Pを処理対象とする。
なお、項目欄とは、項目名としての文字列が記載された領域であり、入力欄とは、文字列が記載されず、項目欄に対応する情報を入力する領域である。そして、穴埋め入力欄とは、文字列が記載され、文字列の間に情報を入力する領域である。
図1に示されるように、標準項目名設定装置10は、ハードウェアとしてプロセッサ11、記憶装置12及び通信用インターフェース13を備えるコンピュータである。
ここで、図2、図3を参照しながら、標準項目名設定装置10により実行される処理の概要について説明する。
そして、標準項目名設定装置10は、各帳票Pから項目名Iを抽出する。ここで、帳票群PGに含まれる帳票Pから抽出した項目名Iの全体を項目名群IGとする。
先ず、標準項目名設定装置10は、項目名群IGに含まれる項目名Iが引当不可条件を満足するか否かを判定し、項目名Iが引当不可条件を満たすものについては、引当不可項目と判定して、その項目名に対してはタイプ別分類の処理対象から除外する。引当不可条件とは、例えば、予め設定されている引当不可項目を要素とする引当不可辞書などの情報に含まれる項目名と一致することである。
そして、項目名Iが引当不可項目でない場合には、項目名Iに対してタイプ別分類を行う。
なお、項目名Iから抽出した名詞が複数あり、それぞれの名詞のタイプが異なる、すなわち項目名Iに複数のタイプが含まれている場合には、標準項目名設定装置10は、その項目名Iを引当不可項目であると判定し、タイプ別分類の処理は行わない。このとき、引当不可項目と判定した項目名Iを引当不可辞書に追加して引当不可辞書を更新してもよい。
具体的には、標準項目名設定装置10は、タイプ別分類に属する一つの項目名I内に異義関係にある語が含まれている場合には、その項目名Iを処理対象外とする。また、項目名I内に異義関係にある語が含まれていなければ、標準項目名設定装置10は、その項目名Iと同義項目グループ内の項目名Iとの同義度を計算し、最も同義度が高い項目名Iと同じ同義項目グループに分類する。同義度は、同義語辞書において同義語として設定されている場合に値が大きくなるように算出される評価値である。
そして、標準項目名設定装置10は、それぞれのタイプ別分類について項目名Iを同義項目グループに分類する。
具体的には、標準項目名設定装置10は、同義項目グループに分類されたそれぞれの項目名Iの標準度を計算する。標準度とは、既に設定されている標準項目名との一致度が高い程大きくなるように算出される評価値である。
そして、標準項目名設定装置10は、同義項目グループに分類された項目名Iのうち標準度が閾値以上であって、且つ最も値が大きい項目名Iを選択し、それを標準項目名に設定する。
標準項目名設定装置10は、この標準項目名候補をユーザに提示し、ユーザの確認、又は修正を経て、標準項目名候補に基づく項目名を標準項目名として設定する。
また、本実施形態においては、標準項目名の候補として選択した項目名Iをユーザに提示してユーザの確認を経るようにしたが、これに限られず、ユーザへの提示・確認を必要とせず、標準項目名の候補として選択した項目名Iを自動で標準項目名として設定するようにしてもよい。
この処理により、異なるタイプから分類された別々の同義項目グループであっても、同義度が高いと判別された同義項目グループどうしは、同じ同義項目グループに分類される。また、いずれのタイプにも該当しないため、第1分類処理において「その他」タイプに分類された項目名が、第3分類処理において、同義度が高い同義項目グループと統合されることで、タイプ別分類された、すなわちタイプが付された項目名と同じ同義項目グループへ分類される。このように、掛け合わせ処理によって、より多くの項目名に対する同義関係の判定を行うことができ、精度の高い同義項目グループが作成される。
なお、本実施形態では、上記のとおり第3分類処理により再分類を行うこととしたが、第3分類処理及び第2設定処理を実行しないことも可能である。その場合には、第1設定処理によって設定された標準項目名が最終的な標準項目名として設定される。
標準項目名設定装置10は、各帳票Pから抽出した項目名Iに対して形態素解析を行い、項目名Iから語(名詞)Wを抽出する。なお、この語Wを抽出する処理では、先に説明した、第1分類処理の前に生成してある項目名群IGに含まれる各項目に対して形態素解析を行うか、若しくは第1分類処理でタイプ別に分類した項目名の集合である分類C1、分類C2等の全分類に含まれる各項目に対して形態素解析を行う。
そして、抽出した各語Wに対し、同義語辞書を参照して、語Wが同義語辞書に含まれているか、含まれていないかを判定する。標準項目名設定装置10は、語Wが同義語辞書に含まれていない場合には、語Wを辞書未登録語(以下、単に「未登録語」ともいう。)としてユーザに提示(レコメンド)し、ユーザからの辞書未登録語に対する同義語の入力を受け付けて、語W及び同義語の情報を同義語辞書に登録(追加更新)する。
以下においては、以上説明した処理を実現するために標準項目名設定装置10に備えられる機能について説明する。
また、上記の標準項目名設定プログラムに従って、プロセッサ11が動作することにより本発明に係る標準項目名設定方法が実現される。
以下、上記の各部の機能の詳細について説明する。
標準項目名記憶部20Aは、帳票における標準的な項目名である標準項目名の情報を記憶する。標準項目名記憶部20Aは、主に標準項目名設定装置10の記憶装置12により実現される。
「項目名」とは、帳票の構成要素であり、帳票への入力情報の内容や形式を規定するための情報である。例えば、「氏名」、「生年月日」等が上記の「項目名」の一例に相当する。
「標準項目名」とは、異なる帳票において意味が対応する項目名のうち、最も一般的に用いられる項目名である。具体的には、「標準項目名」とは、同義関係にある項目名(同義項目)のうち、標準的な項目名として認定されたものをいう。
図5には、標準項目情報テーブルT1の一例を示した。図5に示されるように、標準項目情報テーブルT1は、標準項目ID、標準項目名、帳票種別、項目タイプ、同義項目グループIDの情報を関連付けて記憶する。
標準項目IDは、項目名を一意に識別するための識別子である。
標準項目名は、標準項目IDにより識別される項目名である。
帳票種別は、標準項目IDにより識別される項目名が標準的に用いられる対象の帳票(手続き)を示す情報である。
項目タイプは、標準項目IDにより識別される項目名に対応する項目タイプを示す情報である。
同義項目グループIDは、標準項目IDにより識別される項目名と同義関係にある項目名とからなるグループを一意に識別するための識別子である。
タイプ定義情報記憶部20Bは、標準項目名設定装置10が取得した項目名をタイプ別分類するためのタイプと、該タイプに対応する条件、例えば名詞(語)のリストを記憶する。タイプ定義情報記憶部20Bは、主に標準項目名設定装置10の記憶装置12により実現される。
同義語辞書記憶部20Cは、同義関係にある語が識別可能な情報を含む同義語辞書のデータ(不図示)を記憶する。同義語辞書記憶部20Cは、主に標準項目名設定装置10の記憶装置12により実現される。
「同義語」とは、異なる2つ以上の語が互いに同じ意味を有している場合、特に、帳票の項目において同じ属性を示す語として用いられる場合、これらの語を同義語という。
「同義語辞書」とは、2以上の語が互いに同義語であることを判定可能な情報を有するデータの集合体である。例えば、「氏名」と「名前」が同義語である場合、同義語辞書を参照することにより、これらの語が同義関係にあることが判定可能である。
項目名取得部21は、複数の帳票に記載された複数の項目名を取得する。具体的には、項目名取得部21は、同一手続きに関して異なる自治体で用いられている複数の帳票にそれぞれ記載された複数の項目名を取得する。
なお、項目名取得部21により実行される処理が項目名取得工程に相当する。
具体的には、プロセッサ11は、通信用インターフェース13を介して、帳票処理装置30から処理の対象とする複数の帳票の解析結果を取得する。ここで、複数の帳票の解析結果には、帳票から光学文字認識により得た1以上の項目名の文字列データを含む。
引当不可条件設定部22は、引当不可項目であると判定された、または引当不可項目に分類された項目名に基づいて引当不可条件を設定する。さらに、引当不可条件設定部22は、ユーザにより引当不可項目であると指定された項目名に基づいて引当不可条件を設定する。なお、引当不可条件設定部22により実行される処理が引当不可条件設定工程に相当する。
「引当不可項目」とは、項目名取得部21により取得される項目名のうち、処理対象から除外する項目名の分類である。
「引当不可条件」とは、項目名をいずれのタイプ別分類にも分類しない項目名である「引当不可項目」であると判定するための条件である。項目名が引当不可条件を満たす場合には、その項目名をいずれのタイプ別分類にも分類せずに、処理対象から除外する。なお、処理対象から除外したとき、さらにその項目名を「引当不可項目」に分類するようにしてもよい。例えば、引当不可項目に分類された項目名と一致することは、「引当不可条件」の一例に相当する。また、「引当不可条件」は、引当不可項目と判定された項目名に基づく機械学習により得てもよい。
具体的には、プロセッサ11は、引当不可項目に分類された項目名、またはユーザにより引当不可項目であると指定された項目名を要素とする辞書情報(引当不可辞書)を生成し、記憶装置12に記憶する。この場合には、引当不可辞書に含まれる項目名であることが、引当不可条件となる。
また、プロセッサ11は、引当不可項目に分類された項目名に基づく機械学習により、引当不可条件を生成し、記憶装置12に記憶することとしてもよい。
また、プロセッサ11は、引当不可項目の更新に応じて、引当不可条件を更新することとしてよい。
第1分類部23は、項目名取得部21により取得した複数の項目名を1又は複数のタイプ別分類に分類する。第1分類部23は、主に標準項目名設定装置10のプロセッサ11及び記憶装置12により実現される。
なお、第1分類部23により実行される処理が第1分類工程に相当する。
具体的には、第1分類部23は、タイプごとに該当する条件(語のリスト)を定めておいたタイプ定義情報記憶部20Bを参照し、項目名を構成する語が、どのタイプの条件を満足するかに基づいて項目名のタイプを決定する。
一例としては、「名前(name)」のタイプ別分類に対しては、予め「氏名/名前/名称/名まえ」の語句を定めておく。そして、ある項目名について形態素解析を行うことで上記項目名の一要素として得られた名詞が「氏名/名前/名称/名まえ」のうちいずれかである場合に、第1分類部23は、上記の項目名を「名前(name)」に分類することとする。
第1分類部23は、項目名取得部21により取得した複数の項目名のうち、予め定めておいたタイプ別分類のいずれにも分類できない項目名については、「その他(etc)」に分類する。
すなわち、第1分類部23は、処理対象の項目名が引当不可条件設定部22により設定した引当不可条件を満足する場合には、処理対象の項目名を引当不可項目に分類し、タイプ別分類の処理対象外とすることとする。
第2分類部24Aは、タイプ別分類に分類された項目名を同義度に基づいて1又は複数の同義項目グループに分類する。第2分類部24Aは、主に標準項目名設定装置10のプロセッサ11及び記憶装置12により実現される。
なお、第2分類部24Aにより実行される処理が、第2分類工程に相当する。
「同義項目グループ」とは、同義度が高い項目名をグループ化したものである。例えば、同義度が一定値以上である項目名を同一のグループに分類することにより同義項目グループが形成される。
例えば、項目名を構成する名詞のうち同義語と判定された名詞の割合(パーセント)を同義度とすると、Na1とNb1、Na2とNb2の両方が同義語と判定された場合には同義度が100、どちらか一方が同義語と判定された場合には同義度が50、いずれも同義語でないと判定された場合には同義度は0となる。
また、第3の項目名がある場合であって、第1の項目名と第3の項目名の同義度、さらに第2の項目名と第3の項目名の同義度がいずれも閾値未満である場合には、第2分類部24Aは、新たな同義項目グループを生成し、そこに第3の項目名を分類する。
すなわち、第2分類部24Aは、例えば第1の項目名を構成する語であるNa1とNa2が互いに異義語辞書に基づいて異義語と判定される場合には、第1の項目名を処理対象から除外する。このとき、第2分類部24Aは、異義関係となる語を含む項目名を、引当不可項目に分類するようにしてもよい。
第3分類部24Bは、第2分類部24Aで分類された複数の同義項目グループに対し、同義項目グループ間の同義度に基づいて、同義項目グループを統合して再分類する。第3分類部24Bは、主に標準項目名設定装置10のプロセッサ11及び記憶装置12により実現される。
なお、第3分類部24Bにより実行される処理が、第3分類工程に相当する。
評価部25は、同義項目グループに分類された項目名の標準度を、標準項目名記憶部20Aに記憶される標準項目名との一致度に基づいて評価する。評価部25は、主に標準項目名設定装置10のプロセッサ11及び記憶装置12により実現される。
なお、評価部25により実行される処理が評価工程に相当する。
「一致度」とは、項目名が、標準項目名記憶部20Aに記憶される標準項目名に対して一致する語を含む程度を示す評価値である。そして、一致度が高い程、項目名の標準度は大きくなる。
例えば、評価部25は、第1の項目名が(w1|w2|w3)と区切られ、w1、w2、w3がそれぞれ標準項目情報テーブルT1に出現することとすると、この第1の項目名の標準度V1=1.0×3=3ポイントとなる。なお、本例では、標準項目名に一致する語については1.0ポイントを加算することとするが、これに限られるものではない。
次に、評価部25は、第2の項目名が(w4|w5|w6)と区切られ、w4、w5、w6はそれぞれ標準項目情報テーブルT1に出現しないものの、w4とw6については標準項目名と同義語の関係にあるとする。この場合には、第2の項目名の標準度V2=0.5×2=1ポイントとなる。なお、本例では、標準項目名と同義関係にある語については0.5ポイントを加算することとするが、標準項目名と一致する語より小さいポイントであればこれに限られない。
提示部26は、同義項目グループに分類された項目名の中に標準度が閾値以上である項目名がない場合には、同義項目グループに分類された項目名の中から所定条件に基づき選択した項目名(提示対象項目名)を所定規則に基づき変換した項目名を、標準項目名の候補として提示する。
なお、提示部26により実行される処理が提示工程に相当する。
「所定規則」とは、上記の提示対象項目名を構成する名詞を、同義語であって、標準項目名記憶部20Aに記憶される標準項目名に含まれる名詞に変換するための規則である。
「標準項目名の候補」とは、標準項目名として設定され得る項目名である。具体的には、上記の所定規則により提示対象項目名を変換した項目名が、上記の「標準項目名の候補」に相当する。
具体的には、プロセッサ11は、同義項目グループに分類された項目名のうち標準度が閾値以上であるものがない場合に、上記の所定条件に基づいて項目名を選択する。そして、プロセッサ11は、上記選択した項目名を、上記の所定規則に基づいて変換して標準項目名の候補を得る。なお、所定条件に基づいて選択した項目名を変換せず、標準項目名の候補としてそのまま用いてもよい。
プロセッサ11は、標準項目名の候補を、通信用インターフェース13を介して帳票処理装置30に送信して、帳票処理装置30の表示デバイス32に表示させる。そして、プロセッサ11は、通信用インターフェース13を介して帳票処理装置30から、標準項目名の候補に対する承認、又は編集後の承認等の情報入力を受け付ける。
上記例では、標準項目名の候補を帳票処理装置30に送信し、帳票処理装置30から標準項目名の候補に対する承認、又は編集後の承認等の情報入力を受け付けているが、プロセッサ11は、帳票処理装置30に送信する処理を行わず、所定条件に基づいて選択した項目名をそのまま標準項目名の候補とし、標準項目名選択部27へ引き渡すようにしてもよい。
標準項目名選択部27は、同義項目グループに分類された項目名の中から標準度に基づいて標準項目名を選択する。標準項目名選択部27は、主に標準項目名設定装置10のプロセッサ11、記憶装置12及び通信用インターフェース13により実現される。
なお、標準項目名選択部27により実行される処理が標準項目名選択工程に相当する。
具体的には、標準項目名選択部27は、提示部26により提示された標準項目名の候補が、帳票処理装置30のユーザにより承認されたことを、通信用インターフェース13を介して受け付けた場合には、標準項目名の候補を標準項目名として選択する。
この際、帳票処理装置30では、標準項目名の候補を編集可能としてよく、編集後の標準項目名の候補が承認された場合には、標準項目名選択部27は、編集後の標準項目名の候補を標準項目名として選択する。
更新部28は、標準項目名選択部27により選択された標準項目名に基づいて、標準項目名記憶部20Aの情報を更新する。更新部28は、主に標準項目名設定装置10のプロセッサ11、記憶装置12及び通信用インターフェース13により実現される。
なお、更新部28により実行される処理が更新工程に相当する。
なお、標準項目名の承認を省略し、更新部28は、標準項目名選択部27により選択された標準項目名を標準項目情報テーブルT1に書き込むようにしてもよい。
同義語辞書作成部29は、主に標準項目名設定装置10のプロセッサ11、記憶装置12及び通信用インターフェース13により実現される。
同義語辞書作成部29は、項目名Iから形態素解析で抽出した語(名詞)が同義語辞書
にあるか否かを判定し、同義語辞書にない場合、未登録語の情報を、通信用インターフェース13及び提示部26を介してユーザに提示する。また同義語辞書作成部29は、ユーザにより入力された同義語に関する情報を受け付けて同義語辞書に登録し、同義語辞書を作成する。
なお、同義語辞書作成部29により実行される処理が同義語辞書作成工程に相当する。
次に、図6乃至図9を参照しながら、標準項目名設定装置10により実行される標準項目名設定処理の流れについて説明する。
S3の処理では、標準項目名設定装置10は、項目名Iiが、引当不可条件設定部22により設定される引当不可条件を満足するか否かを判定する(S3)。これにより、項目名Iiが引当可能である場合には、標準項目名設定装置10はS4の処理に進む。
一方で、S4で特定された項目タイプが複数の場合には(S5:Yes)、標準項目名設定装置10は、項目名Iiを引当不可項目に分類する(S7)。
また、S3において、項目名Iiが引当不可条件に該当し、引当可能でないと判定される場合にも(S3:No)、項目名Iiを引当不可項目に分類する(S7)。
なお、引当不可項目を単に処理対象外と扱う場合には、S7を実行せず、すなわち引当不可項目に分類せず、そのままS8へ進んでもよい。
一方で、S6又はS7の後に、変数iがNに達している場合には(S8:Yes)、標準項目名設定装置10は、図7に示すS10の処理に進む。
ここで、項目名Ikの中に異義関係となる語が含まれていない場合には(S12:Yes)、標準項目名設定装置10はS13に進む。
ここで、項目名Ikと同義度が閾値以上である項目名を要素とする同義項目グループがあれば(S14:Yes)、その同義項目グループに項目名Ikを追加する(S15)。
一方で、項目名Ikと同義度が閾値以上である項目名を要素とする同義項目グループがなければ(S14:No)、新規の同義項目グループを作成し、そこに項目名Ikを追加する(S16)。
S17において、変数kがLjに達していない場合には(S17:No)、標準項目名設定装置10は、変数kに1を加算して(S18)、S11に戻りそれ以降の処理を繰り返す。
一方で、S17において、変数kがLjに達していない場合には(S17:No)、標準項目名設定装置10は、S19に進む。
S19において、変数jがMに達していない場合には(S19:No)、変数jに1を加算するとともに、変数kを1に初期化して(S20)、S11に戻りそれ以降の処理を繰り返す。
一方で、S19において、変数jがMに達している場合には(S19:Yes)、標準項目名設定装置10は、図8に示すS21に進む。
なお、S21は、図7に示す処理の終了後、すなわちS19の後に実行される場合と、図9に示す処理の終了後、すなわちS49の後に実行される場合の二通りあり、前者の場合は第2分類処理で分類された同義項目グループに対する処理、後者は第3分類処理で分類された同義項目グループに対する処理となる。
そして、標準項目名設定装置10は、同義項目グループGsに含まれるt番目の要素である項目名Itを選択し(S23)、項目名Itの標準度Vtを計算する(S24)。なお、標準度の計算は、評価部25により実行されるものである。
そして、S26の後、又はS25において標準度VtがVmaxよりも大きくない場合には(S25:No)、S27に進む。
一方で、S27において、変数tがPsに達している場合には(S27:Yes)、標準項目名設定装置10はS29に進む。
具体的には、同義項目グループGsに分類された項目名Iのうち出現頻度が最も高い項目名、すなわち同義項目グループGsの中で最も多い項目名を選択する。または、項目名内の名詞の数が最も少ない項目名、項目名内の文字数が少ない項目名を選択することとしてもよい。さらに、これらの条件に優先順位をつけて、条件に該当する項目が複数選択された場合に次の優先順位の条件から項目名を選択してもよい。そして、所定条件に基づき選択した項目名(提示対象項目名)を標準項目名の候補(標準項目名候補)として得る。なお、所定条件に基づき選択した項目名をさらに所定規則に基づき変換し、その変換した項目名を、標準項目名の候補(標準項目名候補)として得てもよい。
なお、本実施形態では、S32で選択した標準項目名の候補を、帳票処理装置30に提示して帳票処理装置30からの情報入力を受け付けることとしたが、他の実施形態として、S32で選択した標準項目名の候補を自動で標準項目名に設定するようにしてもよい。その場合は、S33,S34を実行せずにS32からS30へ進む。
一方で、S35において、変数sがQに達している場合には(S35:Yes)、図7に示すS19から本処理を実行した場合には、図9に示すS41に進む。一方、図9に示すS49から本処理を実行した場合には、処理を終了する。
そして、標準項目名設定装置10は、変数a+kがRに達していない場合には(S47:No)、変数kに1を加算して(S48)、S44に戻りそれ以降の処理を繰り返す。一方、変数a+kがRに達している場合には(S47:Yes)、S49へ進む。
なお、上記処理フローは一例であり、S41以降の処理を実行せず、S35の後の処理で常に終了するようにしてもよい。この場合、第2分類処理で分類された同義項目グループに基づいて最終的な標準項目名が設定される。
一方、標準項目名設定装置10は、語Wlが同義語辞書に含まれていない場合には(S56:No)、未登録語としてこの語を帳票処理装置30に提示する(S57)。そして、標準項目名設定装置10は、帳票処理装置30から、同義語に関する情報入力を受け付けると(S58)、同義語辞書を更新する(S59)。
以上により、同義語辞書に登録されていない項目名に対し、ユーザに提示して、同義語情報の入力を受け付け、同義語辞書の登録を行う。
以上説明した本実施形態に係る標準項目名設定装置10の主な特徴は以下の通りである。
[1]本実施形態に係る標準項目名設定装置10は、帳票における標準的な項目名である標準項目名を設定する。標準項目名設定装置10は、標準項目名の情報を記憶する標準項目名記憶部20Aと、複数の帳票に記載された複数の項目名を取得する項目名取得部21と、項目名取得部21により取得した複数の項目名を所定条件に基づいて1又は複数のタイプ別分類のいずれかに分類する第1分類部23と、タイプ別分類に分類された項目名を同義度に基づいて1又は複数の同義項目グループに分類する第2分類部24Aと、同義項目グループに分類された項目名の標準度を、標準項目名記憶部20Aに記憶される標準項目名との一致度に基づいて評価する評価部25と、同義項目グループに分類された項目名の中から標準度に基づいて標準項目名を選択する標準項目名選択部27と、標準項目名選択部27により選択された標準項目名に基づいて、標準項目名記憶部20Aの情報を更新する更新部28と、を備える。
標準項目名設定装置10によれば、複数の帳票において同じ意味として用いられている項目名に対する標準的な項目名を設定できる。
こうすることで、標準項目名を選択する基礎となる項目名の中に、適切でない項目名が混入することを防止できる。これにより、標準項目名としてより適切な項目名を設定することができる。
異義語を含む項目名は誤分類の可能性があるため、上記の構成によれば、標準項目名を選択する基礎となる項目名から異義語を含む項目名を除外できる。これにより、標準項目名としてより適切な項目名を設定することができる。
こうすることで、同義関係にある項目名のうち標準項目として最も相応しいものを選択できる。
こうすることで、同義関係にある項目名の中に標準項目に相応しいものがない場合であっても、標準項目名の候補を生成し、標準項目名の候補に基づいて標準項目名を設定できる。
こうすることで、第2分類部24Aでは同義項目名として分類されなかった同義関係にある項目名が、第3分類部24Bでは同義であると判定され、同義項目グループが徐々に適切な同義項目名の集合となり、その結果、適切な標準項目名の設定が行える。
こうすることで、複数の帳票において同じ意味として用いられている項目名に対する標準的な項目名を設定できる。
こうすることで、複数の帳票において同じ意味として用いられている項目名に対する標準的な項目名を設定できる。
こうすることで、複数の項目タイプに跨る項目名を処理対象から除外できる。これにより、実際には対応関係にない項目名を同一グループに分類してしまうことを抑制できる。そのため、本構成によれば、標準項目名としてより適切な項目名を設定することができる。
本発明は上記の実施形態に限定されるものではない。
標準項目名設定装置10と帳票処理装置30を1つの装置として構成してもよい。
また、標準項目名設定装置10は、1台のコンピュータに限られず、複数台のコンピュータから構成されてもよい。
10 標準項目名設定装置
11 プロセッサ
12 記憶装置
13 通信用インターフェース
20A 標準項目名記憶部
20B タイプ定義情報記憶部
20C 同義語辞書記憶部
21 項目名取得部
22 引当不可条件設定部
23 第1分類部
24A 第2分類部
24B 第3分類部
25 評価部
26 提示部
27 標準項目名選択部
28 更新部
29 同義語辞書作成部
30 帳票処理装置
31 入力デバイス
32 表示デバイス
40 スキャナ
C1 タイプ別分類
C2 タイプ別分類
CN タイプ別分類(その他)
G11 同義項目グループ
G12 同義項目グループ
SI1 標準項目名
SI2 標準項目名
T1 標準項目情報テーブル
I 項目名
IG 項目名群
P 帳票
PG 帳票群
Claims (8)
- 帳票における標準的な項目名である標準項目名を設定する標準項目名設定装置であって、
標準項目名の情報を記憶する標準項目名記憶部と、
複数の帳票に記載された複数の項目名を取得する項目名取得部と、
前記項目名取得部により取得した複数の項目名を所定条件に基づいて1又は複数のタイプ別分類に分類する第1分類部と、
前記タイプ別分類に分類された項目名を同義度に基づいて1又は複数の同義項目グループに分類する第2分類部と、
前記同義項目グループに分類された項目名の標準度を、前記標準項目名記憶部に記憶される標準項目名との一致度に基づいて評価する評価部と、
前記同義項目グループに分類された項目名の中から標準度に基づいて標準項目名を選択する標準項目名選択部と、
前記標準項目名選択部により選択された標準項目名に基づいて、前記標準項目名記憶部の情報を更新する更新部と、を備えることを特徴とする標準項目名設定装置。 - 前記項目名取得部により取得した項目名を複数の前記タイプ別分類のいずれにも分類しない条件である、引当不可条件を設定する引当不可条件設定部を備え、
前記第1分類部は、前記項目名取得部により取得した複数の項目名のうち、前記引当不可条件を満足する項目名を前記タイプ別分類に分類しないことを特徴とする請求項1に記載の標準項目名設定装置。 - 前記第2分類部は、前記タイプ別分類に分類された項目名のうち、互いに異義関係の語を含む項目名については処理対象から除外することを特徴とする請求項1又は2に記載の標準項目名設定装置。
- 前記標準項目名選択部は、前記同義項目グループに分類された項目名の中に標準度が閾値以上である項目名がある場合には、標準度が最大の項目名を前記標準項目名に選択することを特徴とする請求項1乃至3のいずれか一項に記載の標準項目名設定装置。
- 前記同義項目グループに分類された項目名の中に標準度が閾値以上である項目名がない場合には、前記同義項目グループに分類された項目名の中から所定条件に基づき選択した項目名を、前記標準項目名の候補として提示する提示部を備え、
前記標準項目名選択部は、前記提示部により提示された前記標準項目名の候補を入力に基づいて前記標準項目名として選択することを特徴とする請求項1乃至4のいずれか一項に記載の標準項目名設定装置。 - 複数の前記同義項目グループのそれぞれにおける前記標準項目名どうしの同義度に基づいて、前記同義項目グループの再分類を行う第3分類部を備えることを特徴とする請求項1乃至5のいずれか一項に記載の標準項目名設定装置。
- 帳票における標準的な項目名である標準項目名の情報を記憶する標準項目名記憶部を備える標準項目名設定装置による標準項目名設定方法であって、
複数の帳票に記載された複数の項目名を取得する項目名取得工程と、
前記項目名取得工程で取得した複数の項目名を所定条件に基づいて1又は複数のタイプ別分類に分類する第1分類工程と、
前記タイプ別分類に分類された項目名を同義度に基づいて1又は複数の同義項目グループに分類する第2分類工程と、
前記同義項目グループに分類された項目名の標準度を、前記標準項目名記憶部に記憶される標準項目名との一致度に基づいて評価する評価工程と、
前記同義項目グループに分類された項目名の中から標準度に基づいて標準項目名を選択する標準項目名選択工程と、
前記標準項目名選択工程で選択された標準項目名に基づいて、前記標準項目名記憶部の情報を更新する更新工程と、を備えることを特徴とする標準項目名設定方法。 - 帳票における標準的な項目名である標準項目名の情報を記憶する標準項目名記憶部を備える標準項目名設定装置としてのコンピュータを、
複数の帳票に記載された複数の項目名を取得する項目名取得部と、
前記項目名取得部により取得した複数の項目名を所定条件に基づいて1又は複数のタイプ別分類に分類する第1分類部と、
前記タイプ別分類に分類された項目名を同義度に基づいて1又は複数の同義項目グループに分類する第2分類部と、
前記同義項目グループに分類された項目名の標準度を、前記標準項目名記憶部に記憶される標準項目名との一致度に基づいて評価する評価部と、
前記同義項目グループに分類された項目名の中から標準度に基づいて標準項目名を選択する標準項目名選択部と、
前記標準項目名選択部により選択された標準項目名に基づいて、前記標準項目名記憶部の情報を更新する更新部として機能させるための標準項目名設定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/024645 WO2019245016A1 (ja) | 2018-06-22 | 2019-06-21 | 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018119207 | 2018-06-22 | ||
JP2018119207 | 2018-06-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020004373A JP2020004373A (ja) | 2020-01-09 |
JP7041963B2 true JP7041963B2 (ja) | 2022-03-25 |
Family
ID=69100234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019037049A Active JP7041963B2 (ja) | 2018-06-22 | 2019-02-28 | 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7041963B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475493B2 (en) | 2019-12-11 | 2022-10-18 | Ul Llc | Methods for dynamically assessing applicability of product regulation updates to product profiles |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169844A (ja) | 2008-01-18 | 2009-07-30 | Hitachi Software Eng Co Ltd | 表認識方法及び表認識装置 |
WO2018016552A1 (ja) | 2016-07-21 | 2018-01-25 | 株式会社ミラボ | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0736737A (ja) * | 1993-06-29 | 1995-02-07 | Hitachi Ltd | テストデータ作成方法 |
JP2866844B1 (ja) * | 1998-01-08 | 1999-03-08 | 株式会社エヌ・ティ・ティ・テレカ | Icカードリーダ・ライタ及びicカード読取り表示装置 |
-
2019
- 2019-02-28 JP JP2019037049A patent/JP7041963B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169844A (ja) | 2008-01-18 | 2009-07-30 | Hitachi Software Eng Co Ltd | 表認識方法及び表認識装置 |
WO2018016552A1 (ja) | 2016-07-21 | 2018-01-25 | 株式会社ミラボ | 帳票入力フォーム生成装置、帳票入力フォーム生成方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475493B2 (en) | 2019-12-11 | 2022-10-18 | Ul Llc | Methods for dynamically assessing applicability of product regulation updates to product profiles |
Also Published As
Publication number | Publication date |
---|---|
JP2020004373A (ja) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0130050B1 (en) | Data management apparatus | |
US20200320290A1 (en) | Image processing apparatus, control method therefor, and storage medium | |
US9910829B2 (en) | Automatic document separation | |
US6907141B1 (en) | Image data sorting device and image data sorting method | |
US8160402B2 (en) | Document image processing apparatus | |
CN110909725A (zh) | 识别文本的方法、装置、设备及存储介质 | |
JPH11316800A (ja) | 文字認識方法及び装置 | |
JP2000112993A (ja) | 文書分類方法、記憶媒体、文書分類装置及び文書分類システム | |
JP2001515623A (ja) | コンピュータによるテキストサマリ自動生成方法 | |
US10949610B2 (en) | Computing machine and template management method | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
JP7041963B2 (ja) | 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム | |
CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
CN116501875B (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
JP7029813B2 (ja) | 辞書作成装置、辞書作成方法及び辞書作成プログラム | |
JP2002245089A (ja) | ウェブページ検索システム、二次情報収集装置、インターフェース装置 | |
JP2007199966A (ja) | 文書分類装置、文書分類方法および文書分類プログラム | |
CN111931256B (zh) | 配色推荐的方法、装置、设备及存储介质 | |
JPH11110409A (ja) | 情報分類方法及び装置 | |
Clausner et al. | Quality prediction system for large-scale digitisation workflows | |
JP2004192555A (ja) | 情報管理方法、情報管理装置及び情報管理プログラム | |
WO2019245016A1 (ja) | 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム | |
US5909680A (en) | Document categorization by word length distribution analysis | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
US11507593B2 (en) | System and method for generating queryeable structured document from an unstructured document using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211108 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20211108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7041963 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |