JP2020140583A - 辞書作成装置、辞書作成方法及び辞書作成プログラム - Google Patents

辞書作成装置、辞書作成方法及び辞書作成プログラム Download PDF

Info

Publication number
JP2020140583A
JP2020140583A JP2019037050A JP2019037050A JP2020140583A JP 2020140583 A JP2020140583 A JP 2020140583A JP 2019037050 A JP2019037050 A JP 2019037050A JP 2019037050 A JP2019037050 A JP 2019037050A JP 2020140583 A JP2020140583 A JP 2020140583A
Authority
JP
Japan
Prior art keywords
dictionary
words
dictionary creation
common word
item name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019037050A
Other languages
English (en)
Other versions
JP7029813B2 (ja
Inventor
一也 谷川
Kazuya Tanigawa
一也 谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Milabo Co Ltd
Original Assignee
Milabo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Milabo Co Ltd filed Critical Milabo Co Ltd
Priority to JP2019037050A priority Critical patent/JP7029813B2/ja
Priority to PCT/JP2020/008190 priority patent/WO2020175662A1/ja
Publication of JP2020140583A publication Critical patent/JP2020140583A/ja
Application granted granted Critical
Publication of JP7029813B2 publication Critical patent/JP7029813B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】複数の帳票において用いられている複数の項目名内の単語が互いに同義語又は異義語であることを判定するための辞書を作成する。【解決手段】帳票の項目名の同義語辞書及び異義語辞書の少なくとも一方を作成する辞書作成装置10は、複数の帳票に記載された複数の項目名を取得する項目名取得部21Aと、項目名取得部21Aにより取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、所定の条件に基づいて分類し、一又は複数の共通単語グループを作成する第1処理部21Bと、帳票を特定する情報に基づいて、共通単語グループ内の単語が互いに同義であるか異義であるかを共通単語グループごとに判別する第2処理部21Cと、を備える。【選択図】図3

Description

本発明は、辞書作成装置、辞書作成方法及び辞書作成プログラムに関し、特に、帳票において用いられている項目名内の単語についての同義語辞書及び/又は異義語辞書を作成する辞書作成装置、辞書作成方法及び辞書作成プログラムに関する。
自治体や企業等では多数の帳票が利用されている。帳票は紙媒体であることが一般的ではあるが、紙媒体の帳票を電子化した入力フォームを用いることで帳票の管理コストを低減することが望まれている。
例えば、下記の特許文献1においては、帳票の種類を判別し、帳票の種類に応じた入力フォームを利用して帳票の受付処理をするシステムについて開示されている。
特開2004−126910号公報
しかしながら、同じ種類の帳票であっても、自治体や企業等に応じて対応する項目の名称(項目名)が異なっていることがある。そのため、数多くの種類の帳票について項目名を標準化しようとするときには、項目名のリストが膨大なものとなり、人手で整理すると労力が極めて大きいという課題があった。そこで、複数の帳票において同じ意味として用いられている項目名に対する標準的な項目名を設定することが望まれているが、さらに、項目名の標準化の精度を向上させるため、項目名に含まれている単語が互いに同義語であるか、異義語であるかを判定できることが望まれている。
本発明は、上記の課題に鑑みてなされたものであり、その目的は、複数の帳票において用いられている複数の項目名内の単語が互いに同義語であるか、異義語であるかを判定するための同義語辞書、異義語辞書を作成する辞書作成装置、辞書作成方法及び辞書作成プログラムを提供することにある。
上記課題は、本発明に係る辞書作成装置によれば、帳票の項目名の同義語辞書及び異義語辞書の少なくとも一方を作成する辞書作成装置であって、複数の帳票に記載された複数の項目名を取得する項目名取得部と、前記項目名取得部により取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、所定の条件に基づいて分類し、一又は複数の共通単語グループを作成する第1処理部と、前記帳票を特定する情報に基づいて、前記共通単語グループ内の単語が互いに同義であるか異義であるかを前記共通単語グループごとに判別する第2処理部と、を備えること、により解決される。
上記構成により、複数の帳票において用いられている複数の項目名内の単語が互いに同義語であるか、異義語であるかを判定することができ、判定結果に基づいて同義語辞書、異義語辞書を作成することができる。
上記の辞書作成装置において、前記第1処理部は、複数の前記項目名間で共通する単語を含む項目名の前記共通の単語以外の単語を、同一の共通単語グループに分類するとよい。
上記の辞書作成装置において、前記第2処理部は、一の前記共通単語グループ内の各単語が同一の前記帳票で使用されていない場合に、前記単語同士を同義語と判定するとよい。
一般的に、同一帳票において、同一の項目名が何度も出現することはほとんどないため、共通単語以外、すなわち共通単語と対で用いられている単語が同一の帳票で使用されていない場合、同義語と判定することができる。こうすることで、共通単語グループ内の共通単語以外の単語、すなわちと同義語辞書を作成することができる。
また、これら一連の処理を機械学習の学習モデルとして学習させることで、より自動化された効率的な辞書生成機能を構築することができる。
上記の辞書作成装置において、前記項目名取得部は、取得した前記項目名が記載されていた帳票を特定する帳票識別情報を前記項目名ごと取得し、前記共通単語グループは、共通単語グループ記憶部に記憶され、該共通単語グループに属する単語と、該単語ごとに該単語が記載されていた帳票の帳票識別情報とを有し、前記第2処理部は、処理対象の単語同士が互いに共通する帳票識別情報を有していない場合に、前記単語同士を同義語と判別するとよい。
こうすることで、共通単語グループに分類された共通単語と対で用いられている単語の同義語辞書を作成することができる。
上記の辞書作成装置において、前記第2処理部は、処理対象の単語同士が互いに共通する帳票識別情報を有している場合に、前記単語同士を異義語と判別する
こうすることで、共通単語グループに分類されたと対で用いられている単語の異義語辞書を作成することができる。
上記課題は、本発明に係る辞書作成方法によれば、同義語辞書及び異義語辞書の少なくとも一方を作成するための辞書作成装置による辞書作成方法であって、前記辞書作成装置が、複数の帳票に記載された複数の項目名を取得する項目名取得工程と、前記項目名取得工程で取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、所定の条件に基づいて分類し、一又は複数の共通単語グループを作成する第1処理工程と、前記帳票を特定する情報に基づいて、前記共通単語グループ内の単語が互いに同義であるか異義であるかを前記共通単語グループごとに判別する第2処理工程と、を備えること、により解決される。
こうすることで、複数の帳票において用いられている複数の項目名内の単語が互いに同義語であるか、異義語であるかを判定することができ、判定結果に基づいて同義語辞書、異義語辞書を作成することができる。
上記課題は、本発明に係る辞書作成プログラムによれば、帳票の項目名の同義語辞書及び異義語辞書の少なくとも一方を作成する辞書作成プログラムであって、コンピュータを、複数の帳票に記載された複数の項目名を取得する項目名取得部と、前記項目名取得部により取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、所定の条件に基づいて分類し、一又は複数の共通単語グループを作成する第1処理部と、前記帳票を特定する情報に基づいて、前記共通単語グループ内の単語が互いに同義であるか異義であるかを前記共通単語グループごとに判別する第2処理部として機能させること、により解決される。
こうすることで、複数の帳票において用いられている複数の項目名内の単語が互いに同義語であるか、異義語であるかを判定することができ、判定結果に基づいて同義語辞書、異義語辞書を作成することができる。
本発明によれば、複数の帳票において用いられている複数の項目名内の単語が互いに同義語であるか、異義語であるかを判定するための同義語辞書、異義語辞書を作成することができる。
また、これら一連の処理を機械学習の学習モデルとして学習させることで、より自動化された効率的な辞書生成機能を構築することができる。
情報処理システムの全体構成を示す図である。 同・異義語辞書作成処理の概要を説明する図である。 辞書作成装置の機能ブロック図である。 辞書作成処理のフロー図である。 辞書作成処理のフロー図である。
以下、図1乃至図5を参照しながら、本発明の実施の形態(以下、本実施形態)に係る辞書作成装置10について説明する。
なお、以下に説明する実施形態は、本発明の理解を容易にするための一例に過ぎず、本発明を限定するものではない。すなわち、以下に説明するシステムの構成、データ、処理等については、本発明の趣旨を逸脱することなく、変更、改良され得るとともに、本発明にはその等価物が含まれる。
以下で用いられる用語の説明を下記に示す。
「帳票」とは、情報の入力が可能であり、所定の処理(手続き)に供される紙媒体又は電子媒体をいう。例えば、市町村等の自治体、国、民間企業等をあて先として申請を行うために用いるものが「帳票」に相当する。具体的には、出生届、妊娠届等が「帳票」の一例に相当する。
「項目名」とは、帳票の構成要素であり、帳票への入力情報の内容や形式を規定するための情報である。例えば、「子どもの氏名」、「子どもの生年月日」等が上記の「項目名」の一例に相当する。
「同義語」とは、異なる2以上の語が互いに同じ意味を有している場合、特に、帳票の項目において同じ属性を示す語として用いられる場合、これらの語を同義語という。
「異義語」とは、異なる2以上の語が互いに異なる意味を有している場合、特に、帳票の項目において異なる属性を示す語として用いられる場合、これらの語を異義語という。
「同義語辞書」とは、2以上の語が互いに同義語であることを判定可能な情報を有するデータの集合体である。例えば、「子ども」と「児童」、「氏名」と「名前」がそれぞれ同義語である場合、同義語辞書を参照することにより、これらの語が同義関係にあることが判定可能である。
「異義語辞書」とは、2以上の語が互いに異義語であることを判定可能な情報を有するデータの集合体である。例えば、「子ども」と「母親」、「氏名」と「生年月日」がそれぞれ異義語である場合、異義語辞書を参照することにより、これらの語が異義関係にあることが判定可能である。
なお、以下においては、「同義語」と「異義語」を合わせて「同・異義語」ともいい、「同義語辞書」と「異義語辞書」を合わせて「同・異義語辞書」ともいう。「同・異義語辞書」とは、上記した「同義語辞書」のデータ集合体と「異義語辞書」のデータの集合体の別々の集合体の双方を意味するか、または、1つのデータの集合体に同義関係と異義関係とが判定可能な情報を有する集合体を意味し、いずれも含むものとする。
[情報処理システム1の構成]
図1に示されるように、情報処理システム1は、同・異義語辞書作成装置10(以下、「辞書作成装置10」という。)及び帳票処理装置30を備える。辞書作成装置10と帳票処理装置30とは、例えば図示しないインターネットやイントラネット等のネットワークを介して通信可能に接続される。
帳票処理装置30はスキャナ40に接続される。
スキャナ40は、紙媒体を光学走査することにより画像情報を取り込む装置である。本実施形態では、スキャナ40は、帳票Pをスキャンしたスキャン画像(画像情報)を、帳票処理装置30に出力する。
帳票Pは、帳簿、伝票、申請書等の定型的な書類である。本実施形態では、多種類の帳票Pをスキャナ40により取り込み、帳票処理装置30に出力することとする。なお、標準項目名を設定する際の処理対象とする複数の帳票Pは、それぞれ同一手続きの帳票Pとする。具体的には、例えば出生届という手続きについて各種自治体で用いられているそれぞれの帳票Pを処理対象とする。
帳票処理装置30は、スキャナ40により取り込んだ帳票Pを処理するコンピュータである。具体的には、帳票処理装置30は、帳票Pに対してOCR(光学文字認識)を実行して、帳票Pに記載の文字列を取得する。また、帳票処理装置30は、罫線、文字列の配置に基づいて、帳票Pの表構造を解析する。より具体的には、帳票処理装置30は、帳票Pを構成する項目欄、入力欄、穴埋め入力欄に分けるとともに、項目欄(さらには穴埋め入力欄)に記載された項目名の情報を解析する。
なお、項目欄とは、項目名としての文字列が記載された領域であり、入力欄とは、文字列が記載されず、項目欄に対応する情報を入力する領域である。そして、穴埋め入力欄とは、文字列が記載され、文字列の間に情報を入力する領域である。
帳票処理装置30には、入力デバイス31が接続されており、入力デバイス31を介して情報の入力が可能である。また、帳票処理装置30には、表示デバイス32が接続されており、UI画面等が表示デバイス32に表示可能である。
本実施形態では、帳票処理装置30が解析した複数種類の帳票Pの情報を辞書作成装置10に出力する。そして、辞書作成装置10が複数種類の帳票Pにおいて用いられている項目名内の単語が互いに同義語であるか、異義語であるかを判定するための同義語辞書、異義語辞書を作成する。
次に、辞書作成装置10の構成について説明する。
図1に示されるように、辞書作成装置10は、ハードウェアとしてプロセッサ11、記憶装置12及び通信用インターフェース13を備えるコンピュータである。
プロセッサ11は、例えば中央処理装置(Central Processing Unit)を含み構成され、記憶装置12に記憶されるプログラムやデータに基づいて各種の演算処理を実行するとともに、辞書作成装置10の各部を制御する。
記憶装置12は、例えばメモリ、磁気ディスク装置を含み構成され、各種のプログラムやデータを記憶するほか、プロセッサ11のワークメモリとしても機能する。
通信用インターフェースは、ネットワークインターフェースカード(NIC)等の通信インターフェースを有し、通信インターフェースを介してネットワークに接続する。そして、通信用インターフェースは、ネットワークを介して帳票処理装置30等のデバイスと通信する。
[辞書作成装置10により実行される処理の概要]
ここで、図2を参照しながら、辞書作成装置10により実行される処理の概要について説明する。
図2に示されるように、辞書作成装置10は、各種手続きに関する複数の帳票Pからなる帳票群PGを取得する。複数の帳票Pは、複数の自治体で用いられる同一手続きに関する帳票を含む。同一手続きであっても、自治体が異なると、帳票の形式や使用されている項目名が異なるため、それぞれの帳票を帳票群PGに含んでいる。ここで、各帳票Pには、項目名が「A」、「B」、「C」等の1以上の項目名Iが含まれている。項目名Iは、1以上の単語を含む語句である。さらに、各項目名Iは、帳票を識別可能な帳票IDを含む。
そして、辞書作成装置10は、各帳票Pから項目名Iを抽出する。このとき、いずれの手続きに属するいずれの帳票から抽出した項目名であるかを判別可能なように、手続きID、帳票ID等の識別情報である、手続き識別情報、帳票識別情報を項目名と合せて取得する。ここで、帳票群PGに含まれる帳票Pから抽出した項目名Iの全体を項目名群IGとする。
次に、辞書作成装置10は、項目名群IGに含まれる項目名Iを、共通単語グループに分類する(第1処理:共通単語グループ作成処理)。
第1処理では、辞書作成装置10は、処理対象の一手続き(手続きA)を取得し、項目名群IGに含まれる項目名Iのうち、手続きAに属する項目名Iについて、項目名内に共通の単語(名詞)を有する項目名I同士を共通のグループにまとめる。
具体的には、辞書作成装置10は、形態素解析により項目名I1,I2をそれぞれ分解した語(形態素)のうちから名詞を抽出する。なお、以下、形態素解析により抽出された名詞のことを「単語」という。
そして、2つの項目名I1,I2が互いに共通する単語、すなわち同一の単語を含んでいる場合、共通する単語と対で用いられている単語を集めたグループ(共通単語グループ)を作成する。
例えば、項目名I1が「子どもの氏名」、項目名I2が「母親の氏名」である場合、互いに共通する単語は「氏名」であるので、共通単語グループ「“氏名”グループ」を作成し、グループ内のメンバとして、項目名I1及び項目名I2内で「氏名」と対で用いられている単語(名詞)である「子ども」及び「母親」をそれぞれ“氏名”グループに分類する。また、共通単語グループは、各単語に対応する帳票IDを含む
辞書作成装置10は、処理対象の手続きAに属する項目名Iの全てに対して第1処理を行い、手続きAの項目名の共通単語グループを作成する。そしてこの処理を手続きごとに繰り返し、全手続きに対して共通単語グループを作成する。
なお、処理対象の手続きAは、ユーザへ入力させ、その入力から取得することができる。または、項目名群IGの手続きID等から辞書作成装置10が処理対象の手続きAのみを抽出して処理しても良い。
上記処理においては、手続きごとに共通単語グループを作成するが、手続きをまたいで共通単語グループを作成したい場合には、項目名群IGに含まれる全項目名に対して処理を行うようにすることもできる。
次に、辞書作成装置10は、第1処理で作成された共通単語グループのそれぞれに対し、グループ内の各単語同士が同義語の可能性が高いか、異義語の可能性が高いか、を判別し、同義語候補、異義語候補を作成する(第2処理;同・異義語候補作成処理)。
具体的には、辞書作成装置10は、処理対象の単語同士が同じ帳票内で使用されているか否かを帳票IDを用いて判別する。辞書作成装置10は、単語同士が同じ帳票内で使用されている場合には、互いが「異義語」である可能性が高いと判別し、異義語の候補として同・異義語候補記憶部を更新する。一方、単語同士が同じ帳票内で使用されていない場合には、互いが「同義語」である可能性が高いと判別し、同義語の候補として同・異義語候補記憶部を更新する。
例えば、“氏名”グループに分類された単語とその帳票IDとして、「子ども;帳票1」、「児童;帳票2」というメンバが分類されている場合には、帳票IDが異なるため、同じ帳票で使われていない、と判別し、よって「子ども」と「児童」は「同義語」候補として更新される。
上記第2処理を全てのグループに対して実行し、また全ての手続きに対して実行することで、同義語候補、異義語候補を作成する。
辞書作成装置10は、第2処理で作成された同・異義語辞書候補をユーザに提示し、承認入力を受け付ける。具体的には、辞書作成装置10は、辞書作成装置10に設けられた表示部、又は通信回線を介して接続された表示装置等に同・異義語辞書候補の情報を表示させる。そして、直接又は通信回線を介して接続された入力装置からの入力を受け付ける。
辞書作成装置10は、ユーザからの承認入力を受け付け、同・異義語候補から、各候補に対して承認又は却下の情報を反映し、最終的な同・異義語辞書の作成、更新を行う(同・異義語辞書更新処理)。
なお、上記実施形態においては、同・異義語候補を作成し、候補に対する承認可否を受け付けて、最終的な同・異義語辞書を確定したが、これに限られず、第2処理で作成した同・異義語候補をそのまま同・異義語辞書として確定してもよい。
このように、辞書作成装置10は、手続きAに属する複数の帳票から取得した項目名Iに対し、同義語であるか、異義語であるかを判別し、同・異義語辞書を作成する。なお、作成された同・異義語辞書は、同一手続きにおいて複数の自治体等が使用している異なる帳票の異なる項目名を共通化、標準化する際に活用できるものである。
さらに、これら一連の処理を機械学習の学習モデルとして学習させることもできる。このように学習させることにより、より自動化された効率的な辞書生成機能を構築することが可能となる。
[辞書作成装置10に備えられる機能]
以下においては、以上説明した処理を実現するために辞書作成装置10に備えられる機能について説明する。
図3には、辞書作成装置10の機能ブロック図を示した。図3に示されるように、辞書作成装置10は、機能として、項目名記憶部20A、共通単語グループ記憶部20B、同・異義語候補記憶部20C、同・異義語辞書記憶部20D、項目名取得部21A、第1処理部21B、第2処理部21C、提示部21D、受付部21E、更新部21Fを備える。
辞書作成装置10に備えられる上記の各部の機能は、記憶装置12に記憶されるプログラム(辞書作成プログラム)に従ってプロセッサ11が辞書作成装置10の各部を動作させることにより実行される。なお、上記のプログラムは、通信用インターフェースによりネットワーク等の通信網を介して辞書作成装置10が取得してもよいし、プログラムを記憶した記憶媒体から辞書作成装置10が読み込んで取得することとしてもよい。
また、上記の辞書作成プログラムに従って、辞書作成装置10のプロセッサ11が動作することにより本発明に係る辞書作成方法が実現される。
以下、上記の各部の機能の詳細について説明する。
[項目名記憶部20A]
項目名記憶部20Aは、辞書作成装置10が帳票群PGに含まれる帳票Pから抽出した項目名の情報を記憶する。項目名記憶部20Aは、主に辞書作成装置10の記憶装置12により実現される。
具体的には、項目名記憶部20Aは、記憶装置12に記憶される項目名テーブル(不図示)により実現される。項目名テーブルは、一例として、項目名、その項目名が抽出された帳票の帳票識別情報、その帳票の属する手続き識別情報を、項目名ごとに記憶する。帳票識別情報、手続き識別情報はそれぞれ、例えば帳票ID、手続きIDである。帳票識別情報は、同一手続きで用いられる帳票であっても、その帳票を使用している自治体、国、企業等の使用者が異なるものは、異なる帳票識別情報が付与されている。
[共通単語グループ記憶部20B]
共通単語グループ記憶部20Bは、辞書作成装置10が作成した、一又は複数の共通単語グループの情報を記憶する。共通単語グループ記憶部20Bは、主に辞書作成装置10の記憶装置12により実現される。
具体的には、共通単語グループ記憶部20Bは、記憶装置12に記憶される共通単語グループテーブル(不図示)により実現される。共通単語グループテーブルは、一例として、共通単語名、単語、帳票の帳票識別情報を記憶する。
共通単語名は、一の共通単語グループに1つである。例えば、“氏名”グループであれば、共通単語は「氏名」である。
単語は、その共通単語グループのメンバでとなる単語であり、例えば、第1処理で項目名「子どもの氏名」から“氏名”グループに分類する処理が行われた場合には、共通単語と対となっていた、すなわち共通単語と共に項目名を構成していた「子ども」である。
帳票識別情報は、単語ごとに記憶されており、項目名記憶部20Aの帳票識別情報を同じである。なお、1つの単語が複数の帳票で使用されている場合には、1つの単語に対して複数の帳票識別情報を記憶している。
[同・異義語候補記憶部20C]
同・異義語候補記憶部20Cは、辞書作成装置10が作成した、同義語の候補となる語が識別可能な情報、及び異義語の候補となる語が識別可能な情報を含むデータ(不図示)を記憶する。同・異義語候補記憶部20Cは、主に辞書作成装置10の記憶装置12により実現される。同・異義語候補記憶部20Cは、一例として、下記で説明する同・異義語辞書記憶部20Dと同様の内容を記憶する。
[同・異義語辞書記憶部20D]
具体的には、同・異義語辞書記憶部20Dは、記憶装置12に記憶される同・異義語辞書テーブル(不図示)により実現される。同・異義語辞書記憶部20Dは、辞書作成装置10が作成した、同義関係にある語が識別可能な情報を含む同義語辞書のデータ(不図示)、及び異義関係にある語が識別可能な情報を含む異義語辞書のデータ(不図示)を記憶する。同・異義語辞書記憶部20Dは、主に辞書作成装置10の記憶装置12により実現される。
同・異義語辞書記憶部20Dは、一例として、単語1、単語2、単語1と単語2の同・異義、手続き、を記憶する。同・異義としては、単語1と単語2について、例えば、「同義」、「異義」、「手続き内同義」、「手続き内異義」といった、判別又は承認結果に応じた内容を記憶している。
[項目名取得部21A]
項目名取得部21Aは、上述した項目名取得処理を実行し、複数の帳票に記載された複数の項目名を取得する。項目名取得部21Aは、主に辞書作成装置10のプロセッサ11、記憶装置12及び通信用インターフェース13により実現される。
なお、項目名取得部21Aにより実行される処理が項目名取得工程に相当する。
具体的には、プロセッサ11は、通信用インターフェース13を介して、帳票処理装置30から処理の対象とする複数の帳票の解析結果を取得する。ここで、複数の帳票の解析結果には、帳票から光学文字認識により得た1以上の項目名の文字列データ、手続き識別情報、帳票識別情報を含む。
項目名取得部21Aは、同一手続きに関して異なる自治体で用いられている複数の帳票にそれぞれ記載された複数の項目名を取得する。このとき、いずれの手続きに属するいずれの帳票から抽出した項目名であるかを判別可能な、手続きID、帳票ID等の手続き識別情報、帳票識別情報を項目名と合せて取得する。一例として、手続きID、帳票IDは、帳票を取り込むときにユーザより入力された情報を取得することができる。
なお、項目名取得部21Aは、帳票処理装置30から複数の帳票のイメージを取得し、取得したイメージから所定の画像処理に基づいて項目名の文字列データを得ることとしてもよい。
[第1処理部21B]
第1処理部21Bは、上述した第1処理を実行し、項目名取得部21Aにより取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、一又は複数の共通単語グループに分類し、共通単語グループを作成する。第1処理部21Bは、主に辞書作成装置10のプロセッサ11及び記憶装置12により実現される。
なお、第1処理部21Bにより実行される処理が第1処理工程に相当する。
具体的には、第1処理部21Bは、複数の項目名間で共通する単語を含む項目名の共通の単語以外の単語、すなわち共通する単語と対で(共に)用いられて一の項目名を構成している単語を、共通の単語ごとに、共通の単語で束ねてグループ化する。
[第2処理部21C]
第2処理部21Cは、上述した第2処理を実行し、第1処理で作成された共通単語グループのそれぞれに対し、グループ内の各単語同士が同義語の可能性が高いか、異義語の可能性が高いか、を判別し、同義語候補、異義語候補(同・異義語候補)を作成する。第2処理部21Cは、主に辞書作成装置10のプロセッサ11及び記憶装置12により実現される。
なお、第2処理部21Cにより実行される処理が、第2処理工程に相当する。
具体的には、第2処理部21Cは、帳票を特定する情報である帳票識別情報に基づき、単語同士が同義か異義かを判別する。処理対象の単語同士が互いに共通する帳票識別情報を有していない場合に、その単語同士を同義語と判別し、処理対象の単語同士が互いに共通する帳票識別情報を有している場合に、単語同士を異義語と判別する。
なお、同義語の判別、異義語の判別のいずれか一方のみを行っても良い。その場合、最終的には同義語辞書、又は異義語辞書のいずれか一方のみが作成されることになる。
[提示部21D]
提示部21Dは、第2処理で作成された同・異義語候補を、表示デバイス32に表示させ、提示する。
提示部21Dは、主に辞書作成装置10のプロセッサ11、記憶装置12及び通信用インターフェース13により実現される。
具体的には、プロセッサ11は、同・異義語候補記憶部に記憶されている同義語及び/又は異義語の候補を、通信用インターフェース13を介して帳票処理装置30に送信して、帳票処理装置30の表示デバイス32に表示させる。
なお、プロセッサ11は、帳票処理装置30に送信する処理を行わず、辞書作成装置付属の表示装置へ表示させても良い。
[受付部21E]
受付部21Eは、帳票処理装置30から、ユーザが入力した同・異義語の候補に対する承認、却下等の情報の入力を受け付ける。具体的には、プロセッサ11は、通信用インターフェース13を介して、帳票処理装置30から情報の入力を受け付ける。
受付部21Eは、主に辞書作成装置10のプロセッサ11、記憶装置12及び通信用インターフェース13により実現される。
[更新部21F]
更新部21Fは、第2処理部21Cが作成した同・異義語候補のデータに対し、受付部21Eが受け付けた承認、却下等の情報を反映して、最終的な同・異義語辞書を作成、又は更新する。更新部21Fは、主に辞書作成装置10のプロセッサ11及び記憶装置12により実現される。
なお、更新部21Fにより実行される処理が辞書作成更新工程に相当する。
[辞書作成装置10による処理の流れ]
次に、図4及び図5を参照しながら、辞書作成装置10により実行される辞書作成処理の流れについて説明する。
図4に示されるように、辞書作成装置10は、手続きの数を示すaを1に初期化して(S1)、複数存在する手続きのうち、処理対象の手続きとして、一つの手続きaを選択する(S2)。なお、手続きの選択は、ユーザからの入力を受け付けることにより実行されても良い。
そして、辞書作成装置10は、変数iを1に初期化して(S3)、選択された手続きaに属する項目名Iを取得し(S4)、形態素解析して項目名Iに含まれる名詞を抽出し、単語W〜Wを取得する(S5)。次に、辞書作成装置10は、手続きaに属する項目名Ii+mを選択し(S6)、同様に形態素解析して項目名Ii+mに含まれる名詞を抽出し、単語X〜Xを取得する(S7)。
次に、辞書作成装置10は、抽出した単語W〜Wと単語X〜Xとを比較し、共通する単語があるかを判定する(S8)。共通する単語がないとき(S8;No)、処理を終了する。一方、共通する単語があるとき(S8;Yes)、その共通する単語の共通単語グループGが既に作成されているか、共通単語グループ記憶部20Bを検索する(S9)。
辞書作成装置10は、共通単語グループGがある場合(S9;Yes)、その共通単語グループGに、単語W〜Wと単語X〜X、及びそれぞれの単語の帳票IDを共通単語グループに格納する(S10)。一方、辞書作成装置10は、共通単語グループGがない場合(S9;No)、新たに共通単語グループGを作成し、単語W〜Wと単語X〜X、及びそれぞれの単語の帳票IDを共通単語グループGに格納する(S11)。
辞書作成装置10は、項目名Ii+mが最後の項目名か否かを判断し(S12)、全ての項目名Ii+mに対する処理が完了していない場合には(S12;No)、mに1加算し(S13)、S6へ進む。全ての項目名Ii+mに対する処理が完了している場合(S12;Yes)、S14に進む。全ての項目名Iに対する処理が完了していない場合(S14;No)、lに1加算し(S15)、S4へ進む。全ての項目名Iに対する処理が完了している場合(S14;Yes)、S16へ進む。
辞書作成装置10は、S16で、複数の手続きのうち、全ての手続きaに対し、処理を実行したかどうかを判断する。全ての手続きに対する処理が完了していない場合、S17へ進んで、aに1加算する。全ての手続きに対する処理が完了している場合、処理を終了する。
次に、辞書作成装置10は、上記により作成された各共通単語グループに対し、図5に示される処理を実行する。先ず、辞書作成装置10は、変数a及び変数kを初期化して(S21)、手続きaを取得する(S22)。次に、辞書作成装置10は、共通単語グループGを選択する(S23)。次にlを初期化して(S24)、共通単語グループGから、共通単語グループG内に保存されている単語の直積を作成する(S25)。そして、直積の要素ごとに、同一帳票で使われている数を示すカウント数を算出する(S26)。これは、共通単語グループG内の各単語の帳票IDを、帳票IDごとにカウントすることで算出される。
辞書作成装置10は、算出されたカウント数が0(ゼロ)より大きいか否かを判定し(S27)、0より大きい場合(S27;Yes)、それらの単語は異義語であると判定し、同・異義語候補記憶部に異義語として書き込み(S28)、S30へ進む。一方、カウント数が0の場合(S27;No)、それらの単語は同義語であると判定し、同・異義語候補記憶部に同義語として書き込み(S29)、S30へ進む。
辞書作成装置10は、単語Wlが最後の単語か否かを判断し(S30)、全ての単語Wlに対する処理が完了していない場合には(S30;No)、lに1加算し(S31)、S25へ進む。全ての単語lに対する処理が完了している場合(S30;Yes)、S32に進む。次に、全ての共通単語グループGに対する処理が完了しているか判定し(S32)、完了していない場合(S32;No)、kに1加算し(S33)、S23へ進む。全ての項目名Iに対する処理が完了している場合(S32;Yes)、S34へ進む。
S34では、複数の手続きのうち、全ての手続きaに対し、処理を実行したかどうかを判断する(S34)。全ての手続きに対する処理が完了していない場合(S34;No)、S35へ進んで、aに1加算する。全ての手続きに対する処理が完了している場合、処理を終了する。
このように、図5に示される処理により、同一帳票内に処理対象となっている単語同士が同一帳票内で使用されているか否かに基づいて、共通単語グループ内の単語同士が同義か異義かを判定する。なお、図5に示される処理は、同一帳票内で使用されているかを判断する処理の一例であり、これに限られず、同一帳票内の使用有無を判断できるものであればよい。
以上のように、本実施形態によれば、帳票Pから抽出した項目名から、単語を取得し、同義語辞書、異義語辞書を作成することができる。
さらに、これら一連の処理を機械学習の学習モデルとして学習させることもできる。このように学習させることにより、より自動化された効率的な辞書生成機能を構築することが可能となる。
[その他の実施形態]
本発明は上記の実施形態に限定されるものではない。
辞書作成装置10と帳票処理装置30を1つの装置として構成してもよい。
また、辞書作成装置10は、1台のコンピュータに限られず、複数台のコンピュータから構成されてもよい。
1 情報処理システム
10 辞書作成装置
11 プロセッサ
12 記憶装置
13 通信用インターフェース
20A 項目名記憶部
20B 共通単語グループ記憶部
20C 同・異義語候補記憶部
20D 同・異義語辞書記憶部
21A 項目名取得部
21B 第1処理部
21C 第2処理部
21D 提示部
21E 受付部
21F 更新部
30 帳票処理装置
31 入力デバイス
32 表示デバイス
40 スキャナ
G1,G2,G3 共通項目グループ
I 項目名
IG 項目名群
P 帳票
PG 帳票群

Claims (7)

  1. 帳票の項目名の同義語辞書及び異義語辞書の少なくとも一方を作成する辞書作成装置であって、
    複数の帳票に記載された複数の項目名を取得する項目名取得部と、
    前記項目名取得部により取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、所定の条件に基づいて分類し、一又は複数の共通単語グループを作成する第1処理部と、
    前記帳票を特定する情報に基づいて、前記共通単語グループ内の単語が互いに同義であるか異義であるかを前記共通単語グループごとに判別する第2処理部と、
    を備えることを特徴とする辞書作成装置。
  2. 前記第1処理部は、複数の前記項目名間で共通する単語を含む項目名の前記共通の単語以外の単語を、同一の共通単語グループに分類することを特徴とする請求項1に記載の辞書作成装置。
  3. 前記第2処理部は、一の前記共通単語グループ内の各単語が同一の前記帳票で使用されていない場合に、前記単語同士を同義語と判定することを特徴とする請求項1又は2に記載の辞書作成装置。
  4. 前記項目名取得部は、取得した前記項目名が記載されていた帳票を特定する帳票識別情報を前記項目名ごと取得し、
    前記共通単語グループは、共通単語グループ記憶部に記憶され、該共通単語グループに属する単語と、該単語ごとに該単語が記載されていた帳票の帳票識別情報とを有し、
    前記第2処理部は、処理対象の単語同士が互いに共通する帳票識別情報を有していない場合に、前記単語同士を同義語と判別することを特徴とする請求項1乃至3のいずれか一項に記載の辞書作成装置。
  5. 前記第2処理部は、処理対象の単語同士が互いに共通する帳票識別情報を有している場合に、前記単語同士を異義語と判別することを特徴とする請求項4に記載の辞書作成装置。
  6. 同義語辞書及び異義語辞書の少なくとも一方を作成するための辞書作成装置による辞書作成方法であって、前記辞書作成装置が、
    複数の帳票に記載された複数の項目名を取得する項目名取得工程と、
    前記項目名取得工程で取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、所定の条件に基づいて分類し、一又は複数の共通単語グループを作成する第1処理工程と、
    前記帳票を特定する情報に基づいて、前記共通単語グループ内の単語が互いに同義であるか異義であるかを前記共通単語グループごとに判別する第2処理工程と、
    を備えることを特徴とする辞書作成方法。
  7. 帳票の項目名の同義語辞書及び異義語辞書の少なくとも一方を作成する辞書作成プログラムであって、コンピュータを、
    複数の帳票に記載された複数の項目名を取得する項目名取得部と、
    前記項目名取得部により取得した複数の項目名のそれぞれに含まれる一又は複数の単語を、所定の条件に基づいて分類し、一又は複数の共通単語グループを作成する第1処理部と、
    前記帳票を特定する情報に基づいて、前記共通単語グループ内の単語が互いに同義であるか異義であるかを前記共通単語グループごとに判別する第2処理部として機能させるための辞書作成プログラム。
JP2019037050A 2019-02-28 2019-02-28 辞書作成装置、辞書作成方法及び辞書作成プログラム Active JP7029813B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019037050A JP7029813B2 (ja) 2019-02-28 2019-02-28 辞書作成装置、辞書作成方法及び辞書作成プログラム
PCT/JP2020/008190 WO2020175662A1 (ja) 2019-02-28 2020-02-27 辞書作成装置、辞書作成方法及び辞書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019037050A JP7029813B2 (ja) 2019-02-28 2019-02-28 辞書作成装置、辞書作成方法及び辞書作成プログラム

Publications (2)

Publication Number Publication Date
JP2020140583A true JP2020140583A (ja) 2020-09-03
JP7029813B2 JP7029813B2 (ja) 2022-03-04

Family

ID=72240013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019037050A Active JP7029813B2 (ja) 2019-02-28 2019-02-28 辞書作成装置、辞書作成方法及び辞書作成プログラム

Country Status (2)

Country Link
JP (1) JP7029813B2 (ja)
WO (1) WO2020175662A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269858A (zh) * 2020-10-22 2021-01-26 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
JP7410501B1 (ja) 2023-08-07 2024-01-10 株式会社ミラボ プログラム、電子申請書作成方法及び電子申請書作成システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048291A (ja) * 2010-08-24 2012-03-08 Dainippon Printing Co Ltd 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム
JP2012053548A (ja) * 2010-08-31 2012-03-15 Sanyo Electric Co Ltd 文書データ変換装置及び文書変換プログラム
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2013109597A (ja) * 2011-11-21 2013-06-06 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法
JP6338758B1 (ja) * 2017-11-10 2018-06-06 株式会社ナビット 配信システム、配信方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56123591A (en) * 1980-03-05 1981-09-28 Tokyo Shibaura Electric Co Method of selecting screen of crt display unit

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012048291A (ja) * 2010-08-24 2012-03-08 Dainippon Printing Co Ltd 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム
JP2012053548A (ja) * 2010-08-31 2012-03-15 Sanyo Electric Co Ltd 文書データ変換装置及び文書変換プログラム
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
JP2013109597A (ja) * 2011-11-21 2013-06-06 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法
JP6338758B1 (ja) * 2017-11-10 2018-06-06 株式会社ナビット 配信システム、配信方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269858A (zh) * 2020-10-22 2021-01-26 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
CN112269858B (zh) * 2020-10-22 2024-04-19 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
JP7410501B1 (ja) 2023-08-07 2024-01-10 株式会社ミラボ プログラム、電子申請書作成方法及び電子申請書作成システム

Also Published As

Publication number Publication date
JP7029813B2 (ja) 2022-03-04
WO2020175662A1 (ja) 2020-09-03

Similar Documents

Publication Publication Date Title
US8468167B2 (en) Automatic data validation and correction
KR102004180B1 (ko) 시험지 인식을 통한 유사 문제 추출 장치 및 그 방법
CN109753964A (zh) 计算机以及文件识别方法
JP2007026386A (ja) 画像検索システム及び方法
US10949610B2 (en) Computing machine and template management method
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
JP5023176B2 (ja) 特徴語抽出装置及びプログラム
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP7029813B2 (ja) 辞書作成装置、辞書作成方法及び辞書作成プログラム
US11386263B2 (en) Automatic generation of form application
WO2008062822A1 (fr) Dispositif d&#39;exploration de texte, procédé d&#39;exploration de texte et programme d&#39;exploration de texte
JP2019003472A (ja) 情報処理装置及び情報処理方法
US20210064863A1 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JP7155546B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP7367139B2 (ja) データ検索方法及びシステム
JP2020004373A (ja) 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP4356908B2 (ja) 財務諸表自動入力装置
JP5877775B2 (ja) コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体
US20220138259A1 (en) Automated document intake system
TW200409046A (en) Optical character recognition device, document searching system, and document searching program
JP2002304401A (ja) アンケート処理装置及びアンケート処理方法並びにプログラム
WO1997004409A1 (fr) Dispositif de recherche de fichiers
JP2007280413A (ja) 財務諸表自動入力装置
JP2020184234A (ja) 窓口業務管理装置、窓口業務管理方法及び窓口業務管理プログラム
JP4946779B2 (ja) リスク区分管理システム及びリスク区分管理装置及びリクス区分管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210428

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R150 Certificate of patent or registration of utility model

Ref document number: 7029813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150