JP2022059247A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2022059247A JP2022059247A JP2020166861A JP2020166861A JP2022059247A JP 2022059247 A JP2022059247 A JP 2022059247A JP 2020166861 A JP2020166861 A JP 2020166861A JP 2020166861 A JP2020166861 A JP 2020166861A JP 2022059247 A JP2022059247 A JP 2022059247A
- Authority
- JP
- Japan
- Prior art keywords
- data
- attribute
- candidate
- source
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
- H04N1/00209—Transmitting or receiving image data, e.g. facsimile data, via a computer, e.g. using e-mail, a computer network, the internet, I-fax
- H04N1/00212—Attaching image data to computer messages, e.g. to e-mails
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00326—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
- H04N1/00328—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
- H04N1/00331—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00344—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a management, maintenance, service or repair apparatus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0081—Image reader
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】第1データの関連付け先の各候補のデータの名前のみを表示する場合に比べて、作業者が、他の装置で入力されるデータのうちより適切なものを第1データに関連付けられるようにする。【解決手段】GUI画面800は、基幹システムが設定する発注No、発注日等の必要属性804に対して、その前段のOCRシステムや確認訂正システムが設定する属性(=ソース属性)を関連付けるためのユーザインタフェースである。マッピング属性806の欄には、必要属性804に対して関連付けられるソース属性の情報が表示される。この情報は、そのソース属性を設定する装置の名前例えば「OCR」と、そのソース属性の名前例えば「注文番号」との組が表示される。またボタン808が押下されると、マッピング属性806の候補となるソース属性を示す候補リスト810又は820が表示される。【選択図】図8
Description
本発明は、情報処理装置及びプログラムに関する。
特許文献1に開示されたデータ連携ルール生成システムは、モデル化した各業務で使用される概念的なデータの連携を示す情報を含む業務モデル定義情報、及び、モデル化した業務で使用される概念的なデータと、モデル化した業務の処理を行う業務システムで使用されるデータとの対応付けを示すシステム物理仕様マッピング定義情報を基に、業務システム間で連携されるデータの対応付けを示すシステム連携ルール定義情報を生成する。データ・コントロール・システムは、生成されたシステム連携ルール定義情報を用いて業務システムのデータを連携させる。
特許文献2に開示されるシステムは、上流から下流までのデータ定義を見える化し、下流へのデータマッピングにおいて任意の上流の属性をセットする。コンポーネントタイプによって属性が自動決定される。
特許文献3に開示されるシステムは、文書からメタ情報を抽出し、関連辞書情報(同義語、翻訳辞書、書き言葉と話し言葉の変換辞書等)を用いてマッピングし、マッピングした情報に従ってメタ情報を変換する。
特許文献4に開示されるシステムは、データソースからデータターゲットにインポートする場面において、複数のインポート手順をユースケース(使用事例)として保持する。 インポート時は、インポートパラメータの条件が一致するユースケースが選択され、当該ユースケースのインポート手順が実行される。
複数の装置を用いたワークフローを実現するためには、複数の装置にて設定(例えば入力)される属性同士を関連付けることが必要である。その際、それら複数の装置のうち第1装置にて設定される複数の属性のうちの第1属性に対して、他の複数の装置で設定される複数の属性が関連付けの候補となってしまう場合がある。
本発明は、第1データの関連付け先の各候補のデータの名前のみを表示する場合に比べて、作業者が、他の装置で入力されるデータのうちより適切なものを第1データに関連付けられるようにすることを目的とする。
請求項1に係る発明は、プロセッサを備え、前記プロセッサは、ワークフローを構成する複数の装置のうちの第1装置で設定されるデータである第1データと、前記複数の装置のうちの前記第1装置以外の装置で設定されるデータである第2データとの間の、名前同士の類似度である第1類似度と、データ形式同士の類似度である第2類似度とに基づいて、前記第1データに関連付けるべき前記第2データの候補を選定し、選定された前記候補ごとに、前記第1データの名前と、当該候補の名前と、当該候補の設定が行われる前記装置の名前と、を互いに対応付けて表示する第1画面であって、前記候補の中から前記第1データと関連付ける第2データの選択を受け付けるための第1画面、を生成する、ことを特徴とする情報処理装置である。
請求項2に係る発明は、前記第2データは、前記第1装置よりも前記ワークフローの上流の装置で設定されるデータであり、前記プロセッサは、前記ワークフローの上流側の前記装置から順に、当該装置を前記第1装置として前記第1画面を生成し、生成した前記第1画面を用いて1以上の前記候補の中から前記第1データに関連付けるものの選択を受け付ける、ことを特徴とする請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記ワークフローの上流側の前記装置から順に行われた前記選択の結果互いに関連付けられた前記第2データ同士の間では、当該第2データが設定される前記装置が前記ワークフロー中で上流である前記第2データほど、前記第1画面において前記第1データに対する関連が強い候補として表示されにくくなることを特徴とする請求項2に記載の情報処理装置である。
請求項4に係る発明は、互いに関連付けられる前記第2データ同士の間では、当該第2データが設定される前記装置が前記ワークフロー中で上流である前記第2データほど、前記第1画面において前記第1データに対する関連が強い候補として表示されにくくなる、ことを特徴とする請求項1に記載の情報処理装置である。
請求項5に係る発明は、前記データ形式には、少なくともデータ型が含まれ、前記第2データのうち前記第1データと同じデータ型のものは、そうでないものよりも前記第2類似度が高いと判定される、ことを特徴とする請求項1に記載の情報処理装置である。
請求項6に係る発明は、前記第1データと同じデータ型でない前記第2データ同士の間では、型変換により前記第1データと同じデータ型に変換可能なものの方が、そうでないものよりも前記第2類似度が高いと判定される、ことを特徴とする請求項5に記載の情報処理装置である。
請求項7に係る発明は、前記第1画面には、選定された前記候補のうち、前記第1データと同じデータ型にするために型変換が必要な前記候補は、前記第1データと同じデータ型にするために型変換が不要な前記候補とは区別可能な表示態様で表示される、ことを特徴とする請求項1に記載の情報処理装置である。
請求項8に係る発明は、前記データ形式には、データ長が含まれ、前記第2データのうち前記第1データよりもデータ長が長いものは、前記候補に選定されない、ことを特徴とする請求項1に記載の情報処理装置である。
請求項9に係る発明は、前記プロセッサは、前記第1画面に表示された前記候補の中からユーザが前記第1データに関連付ける前記候補を選択した場合に、前記ユーザから選択された前記候補である前記第2データについては、前記第1データとの前記名前同士の前記第1類似度が高く計算されるよう学習する、ことを特徴とする請求項1に記載の情報処理装置である。
請求項10に係る発明は、前記候補の選定では、前記第1類似度と前記第2類似度とに基づき計算される点数が所定の第1閾値より高い前記第2データが前記候補として選定され、前記第1画面では、前記点数が前記第1閾値よりも高い第2閾値以上である前記候補がある場合、当該候補は前記第1データと関連付けるものとして仮選択された状態で表示され、前記第1画面に対してユーザが前記第1データと関連付ける前記候補を選択する操作を行わなかった場合、前記仮選択された状態の前記候補が前記第1データと関連付けるものとして選択されたものとみなされる、ことを特徴とする請求項1に記載の情報処理装置である。
請求項11に係る発明は、コンピュータに、ワークフローを構成する複数の装置のうちの第1装置で設定されるデータである第1データと、前記複数の装置のうちの前記第1装置以外の装置で設定されるデータである第2データとの間の、名前同士の類似度である第1類似度と、データ形式同士の類似度である第2類似度とに基づいて、前記第1データに関連付けるべき前記第2データの候補を選定し、選定された前記候補ごとに、前記第1データの名前と、当該候補の名前と、当該候補の設定が行われる前記装置の名前と、を互いに対応付けて表示する第1画面であって、前記候補の中から前記第1データと関連付ける第2データの選択を受け付けるための第1画面、を生成する、処理を実行させるためのプログラムである。
請求項1又は11に係る発明によれば、第1データの関連付け先の各候補のデータの名前のみを表示する場合に比べて、作業者が、他の装置で入力されるデータのうちより適切なものを第1データに関連付けられるようにすることができる。
請求項2に係る発明によれば、ワークフローにおける順序と関わりなくユーザが選んだ装置を第1装置として関連付けを行う方式と比べて、関連付けのやり直しが必要となる可能性を低減することができる。
請求項3に係る発明によれば、上流の装置で設定されたデータを下流の装置が修正、変更するワークフローにおいて、第1装置にとって最新の修正又は変更の結果が第1データに関連付けられやすくすることができる。
請求項4に係る発明によれば、上流の装置で設定されたデータを下流の装置が修正、変更するワークフローにおいて、第1装置にとって最新の修正又は変更の結果が第1データに関連付けられやすくすることができる。
請求項5に係る発明によれば、第1データとデータ型が同じ第2データが、そうでない第2データよりも第1データに対して関連付けられやすくすることができる。
請求項6に係る発明によれば、第1データと同じデータ型に変換できる第2データの方が、そうでない第2データよりも第1データに対して関連付けられやすくすることができる。
請求項7に係る発明によれば、型変換が必要な第2データについては、その旨が分かるように表示することができる。
請求項8に係る発明によれば、第1データのデータ長を超える第2データが第1データに関連付けられることを防ぐことができる。
請求項9に係る発明によれば、ユーザが行った関連付けを、次回以降の第1類似度の計算に反映させることができる。
請求項10に係る発明によれば、点数がある程度高い(すなわち第2閾値以上)第2データについては、関連付けのためのユーザの明示的な操作を省略可能とすることができる。
図1を参照して、本発明に係る情報処理装置の実施形態である属性関連付けシステム120と、これが適用されるワークフローシステムと、からなる全体システムを例示する。図1に例示するワークフローシステムは、メールサーバ102、スキャナ104、データエントリシステム100、基幹システム110、及び文書管理システム112等のサブシステムを含んでいる。このワークフローシステムは、帳票の記入内容をデジタル化して保存する処理のためのものである。このうちメールサーバ102及びスキャナ104は、データエントリシステム100に帳票の画像データを入力する入力システムである。また、基幹システム110及び文書管理システム112は、データエントリシステム100がデジタル化した帳票の記入内容を受け取って処理する後段システムである。
入力システムの一つであるスキャナ104は、紙等の帳票をスキャンし、その帳票の画像データ(以下、帳票画像と呼ぶ)を生成し、その帳票画像を例えばネットワーク経由でデータエントリシステム100に入力する。また、スキャナ104が生成した帳票画像や、文書編集システムを用いてユーザが記入した帳票画像が、電子メールに添付され、メールサーバ102経由でデータエントリシステム100に入力されることもある。図示は省略したが、データエントリシステム100への帳票画像の入力は、例示した電子メール添付やスキャナ104からの入力以外に、例えばファクシミリ等の画像転送システムを経由して行われてもよい。
データエントリシステム100は、紙等の帳票の記入内容を認識してデジタル化するシステムである。データエントリシステム100は、OCRシステム106と確認訂正システム108を含む。
OCR(光学文字認識)システム106は、入力された帳票画像に対して文字認識を実行し、帳票画像中の各属性の値である文字列を求める。ここで、OCRシステム106は、公知のkey-value抽出の手法を用いて、各属性の値を特定してもよい。key-value抽出は、帳票画像中から、例えば「注文日」や「合計金額」等の属性を表すkey(キー)の文字列を認識する。そして、そのkeyの文字列の近傍の予め想定される場所にある、その属性のデータ種類(例えば年月日に該当し得る数字列、金額に該当し得る数字列)に合致する文字列を、その属性の値として認識する。
図2に、帳票200の例を示す。この帳票200は注文書であり、注文番号202、注文日204、得意先名206、合計金額208等の属性を含んでいる。
確認訂正システム108は、OCRシステム106による文字認識結果に対して、人間のオペレータによる確認、訂正を受け付けるシステムである。確認訂正システム108は、例えば、帳票内の属性ごとにその属性の画像と文字認識結果の文字列とを対応付けて表示した確認画面をオペレータに提示する。オペレータは、その確認画面に対して、その文字認識結果が正しければその旨を確認する入力を、誤っていれば正しく訂正する入力を行う。このようにしてオペレータから確認又は訂正を受けた各属性の文字列が、後段システムである基幹システム110及び文書管理システム112に入力される。
基幹システム110は、ワークフローシステムを利用している組織の業務のための中核となる情報処理を行うシステムである。基幹システム110は、例えば、データエントリシステム100から帳票の記入内容をデジタル化したデータ、すなわち属性ごとの値(=文字列)のデータを受け取り、そのデータに従って会計処理等の基幹業務の情報処理を実行する。
文書管理システム112は、組織の業務に用いられる文書を保存するシステムである。文書管理システム112は、例えば、データエントリシステム100から受け取った帳票の記入内容をデジタル化したデータと、帳票画像とを対応付けて保存し、保存したそれらの情報をユーザの利用に供する。
図1に例示したワークフローシステムでは、同じ帳票に関する処理が、OCRシステム106、確認訂正システム108、基幹システム110(又は文書管理システム112)の順に進んでいく。このように、ワークフローの処理の順序において前(すなわち時間的に早い)側のことを以下では「上流」と呼び、後ろ側のことを「下流」と呼ぶ。例えば、OCRシステム106及び確認訂正システム108は、基幹システム110から見て「上流」のサブシステムであり、確認訂正システム108はOCRシステム106から見て「下流」のサブシステムである。
ワークフローシステムを構成するメールサーバ102、スキャナ104、OCRシステム106、確認訂正システム108、基幹システム110、及び文書管理システム112は、入力された帳票に関していくつかの属性の値を設定する。あるシステムが属性の値を「設定する」とは、その属性の値を自システムの出力データに組み込むこと、又はその属性の値を自システムの情報処理(データベースへの登録も含む)への入力データに組み込むことを意味する。以下では、既述の煩雑さを避けるため、「システムが設定する属性」のことを、単に「システムの属性」と呼ぶこともある。
例えば、メールサーバ102は、帳票画像が添付された電子メールのデータから、タイトル、宛先、受信日時等の属性の値を抽出し、抽出した各属性の値を、帳票画像に対応付けて、ワークフローにおける次段階であるデータエントリシステムへと出力する。
また、OCRシステム106は、帳票画像から、注文番号、注文日132、得意先名、合計金額142等の属性とその値を認識し、認識したそれら各属性の値を次の確認訂正システム108に出力する。この例では、合計金額142という属性には、その属性の値のデータ型として、「文字列型:¥カンマ付」というデータ型が設定されている。これは、合計金額142の値が、文字列型であり、先頭に「¥」マークがつき、所定の桁数ごとにカンマで区切られたものであることを示す。
また例えば確認訂正システム108は、OCRシステム106から入力された帳票画像の各属性の確認結果又は訂正結果の値と、オペレータ又は確認訂正システム108自体が入力した他の属性の値を、次の基幹システム110及び文書管理システム112への出力データに組み込む。確認訂正システム108が設定する属性には、例えば案件番号、確認者名、確認日時134、得意先名、得意先番号、担当営業、合計金額144等がある。このうち、得意先名や合計金額144は、OCRシステム106から入力された同名の属性の値についての、オペレータによる確認又訂正の結果である。また例えば確認者名、確認日時、得意先番号は、オペレータ又は確認訂正システム108自体がその属性の値を入力又は生成する。この例では、確認日時134という属性の値に対して、「yyyyMMddHHmmss」というデータ型が定められている。このデータ型は、4桁の年「yyyy」、2桁の月「MM」、2桁の日「dd」、2桁の時「HH」、2桁の分「mm」、2桁の秒「ss」をこの順に連ねた数字列である。
また例えば基幹システム110は、上流側の各システム、例えば確認訂正システム108、から入力された各属性の値を、販売管理、在庫管理、財務会計等の基幹業務アプリケーションに入力する。入力する属性には、例えば見積No.、発注No.、発注日136、顧客名、顧客No.、発注金額146等がある。
ここで注意すべきは、ワークフローの各サブシステムが値を設定する属性には、それぞれサブシステムごとに個別に名前(すなわち識別名)が決められている場合があることである。個々のサブシステムを別々に開発した場合等には、このようなことが起こり得る。この場合、同じ属性に対してサブシステムごとに異なる名前が付けられているといった状況も生じ得る。
また、属性のデータ型がサブシステムごとに設計されている場合、同じ属性のデータ型がサブシステムごとに異なっている場合がある。
ワークフローの各段階(すなわち各システム)で属性の名前が異なっていると、下流側のサブシステムが上流側のサブシステムで設定された属性の値を正しく引き継げない場合が出てくる。このような事態を避けるため、従来は、人手により各サブシステム間の属性同士の関連付けを行っていた。しかし、人手による対応には手間暇が掛かる。そこで、本実施形態では、それら各サブシステム間の属性同士の関連付けを支援する属性関連付けシステム120を設けている。
属性関連付けシステム120は、ワークフロー中の各サブシステムが設定する属性同士の類似性を評価し、その評価結果に従ってサブシステム間での属性同士の関連付けのための支援処理を行う。属性同士の関連付けの最終判断は、人間であるユーザが行う。属性関連付けシステム120は、そのユーザに対して関連付けの判断材料となる情報を提示し、ユーザから最終判断を求める。属性同士の類似性は、属性の名前同士の類似度と、属性のデータ形式同士の類似度と、の2つに基づき評価される。属性のデータ形式には、属性の値のデータ型とデータ長との内の少なくとも一つが含まれる。
属性関連付けシステム120が実行する処理については、それのベースとなるコンピュータハードウエアの例を説明した後で、詳しく説明する。
属性関連付けシステム120は、例えば、汎用のコンピュータを用いて構成される。図3に例示するように、属性関連付けシステム120のベースとなるコンピュータは、プロセッサ302、ランダムアクセスメモリ(RAM)等のメモリ(主記憶装置)304、フラッシュメモリやSSD(ソリッドステートドライブ)、HDD(ハードディスクドライブ)等の不揮発性記憶装置である補助記憶装置306を制御するコントローラ、各種の入出力装置308とのインタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース310等が、例えばバス312等のデータ伝送路を介して接続された回路構成を有する。上記実施形態の処理の内容が記述されたプログラムが、ネットワーク等を経由してそのコンピュータにインストールされ、補助記憶装置306に記憶される。補助記憶装置306に記憶されたプログラムが、プロセッサ302によりメモリ304を用いて実行されることにより、属性関連付けシステム120が構成される。
上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit、等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働してなすものであってもよい。また、プロセッサの各動作は、以上の実施形態において説明した順序のみに限定されるものではなく、適宜に変更してもよい。
次に、図4~図8を参照して、属性関連付けシステム120が行う関連付け支援の詳しい例を説明する。
この例では、基幹システム110をターゲットシステムとし、このターゲットシステムが設定する属性をターゲット属性と呼ぶ。また、ワークフローシステムにおけるそのターゲットシステムの上流側のサブシステムをソースシステムと呼び、ソースシステムが設定する属性をソース属性と呼ぶ。関連付け支援では、ターゲット属性ごとに、これに対する類似度合いが高いソース属性を、関連付け先の候補としてユーザに提示する。
図4に、ターゲット属性に対するソース属性の得点の求め方の例を示す。この得点は、ターゲット属性に対するソース属性の類似度合い、すなわち関連の強さ、を示す評価値である。
図4の例は、基幹システム110をターゲットシステムとし、発注No.をターゲット属性とした場合の例である。またこの例では、OCRシステム106と確認訂正システム108をソースシステムとして取り上げている。またソース属性として、OCRシステム106が設定する注文番号、注文日、得意先名、合計金額と、確認訂正システム108が設定する案件番号、確認日時、合計金額を取り上げている。
属性関連付けシステム120は、ソース属性の得点を、ターゲット属性に対する名前の類似度を示す第1得点と、ターゲット属性に対するデータ型の類似度を示す第2得点とに基づき計算する。すなわち、ソース属性とターゲット属性との名前同士の類似度として第1得点を計算し、それら両属性のデータ型同士の類似度として第2得点を計算し、それら2種類の得点に基づいてソース属性の総合得点を計算する。
第1得点の算出には、名前用語辞書122が用いられる。名前用語辞書122には、属性の名前に用いられる用語(例えば単語や複合語)ごとに、類義語と得点とが登録されている。例えば図示例では、用語「発注」に対する類義語「注文」、「ご注文」、「オーダー」、「受注」の得点は30点である。図示は省略したが、名前用語辞書122には、単語「発注」に対して、30点以外の得点(例えば20点)の類義語が含まれていてもよい。なお、用語に対して類義語でない語句については、例えば得点を0点とする。
属性関連付けシステム120による第1の得点の算出は、例えば以下のように行われる。すなわち、ソース属性の名前に含まれる用語(ソース用語と呼ぶ)がターゲット属性の名前に含まれる用語の類義語である場合、名前用語辞書122内のその類義語の得点を、そのソース用語の得点とする。このようにして求めたソース用語の得点の合計を、そのソース属性の第1得点とする。なお、この算出手法はあくまで一例に過ぎない。この代わりに例えば意味解析等の自然言語解析の手法を用いてターゲット属性とソース属性の名前同士の類似度すなわち第1得点を計算してもよい。
第2得点の算出には、型変換辞書124が用いられる。型変換辞書124には、ターゲット属性のデータ型(ターゲット型と呼ぶ)に対して型変換可能なソース属性のデータ型(ソース型と呼ぶ)の各々について、前者に対する後者の類似度の得点が登録されている。なお、同じデータ型も型変換可能なデータ型に含める。図4には、型変換辞書124のうち、データ型string(=文字列型)に型変換可能な各データ型の得点を示す部分が示される。この部分には、string型に変換可能なデータ型として、string型、date(=日付)型、int(=整数)型、boolean(=ブール)型が登録されている。そして、各ソース型の得点として、string型は30点、date型及びint型は20点、boolean型は5点が登録されている。
第2得点の計算では、例えば、ソース型がターゲット型に変換可能なものである場合、型変換辞書124内のそのソース型の得点を、そのソース属性の第2得点とする。なお、この算出手法はあくまで一例に過ぎない。
総合得点は、例えば第1得点と第2得点とを合計したものとする。図4において、例えばOCRシステム106が設定するソース属性の名前「注文番号」は、ターゲット属性の名前「発注No.」のうちの用語「発注」及び「No.」に対してそれぞれ得点が30点である用語「注文」及び「番号」を含んでいる。したがって、ソース属性「注文番号」の第1得点は60点である。また、型変換辞書124において、ソース属性のデータ型stringはターゲット属性のデータ型stringに対して30点の得点を持つので、ソース属性「注文番号」の第2得点は30点である。したがって、ソース属性「注文番号」の総合得点は90点となる。また別の例として、ソース属性「注文日」は、「発注」に対して得点が30点である「注文」を含んでいるので、第1得点が30点であり、「注文日」のデータ型であるdate型はstring型に対して第2得点が20点である。したがって、ソース属性「注文日」の総合得点は50点となる。
なお、第1得点と第2得点の合計を総合得点とするのは一例に過ぎない。総合得点の計算には、合計に限らず、第1得点と第2得点を入力変数とする様々な関数を用いることができる。この関数は、第1得点が同じならば第2得点が高いほど、第2得点が同じであれば第1得点が高いほど、出力である総合得点が高くなるものでよい。また、関数の代わりに、第1得点と第2得点との組合せに対する総合得点を出力するルックアップテーブルを用いてもよい。
また図示例では、総合得点の算出において、ソース属性のデータ長がターゲット属性のデータ長より大きい場合には、そのソース属性の総合得点がいかなる値であっても、その総合得点を強制的に0点に変更している。これは、ソース属性の値を、その値よりもデータ長が短いターゲット属性の値に代入しようとすると、桁あふれが生じ、誤った結果となるためである。総合得点は0以上の値であり、総合得点が0点ということは、ソース属性はターゲット属性に対して関連がない、従って関連付けの対象にならない、ことを意味する。
例えば図4において、OCRシステム106が設定するソース属性「得意先名」は、名前に関する第1得点は0点だが、データ型stringがターゲット型stringに対して30点なので、第2得点は30点である。したがって、第1得点と第2得点の合計は30点である。しかし、ソース属性「得意先名」のデータ長は64バイトであり、ターゲット属性「発注No.」のデータ長12バイトよりも長いので、ソース属性「得意先名」の総合得点は強制的に0点に変更される。同様に、OCRシステム106が設定するソース属性「合計金額」も、データ長がターゲット属性のそれよりも長いので、総合得点は0点である。
ただし、ソース属性のデータ型が、類似した意味を持つ別の一以上のデータ型への型変換可能であると定められ、それら別の一以上のデータ型の中にデータ長がターゲット属性のデータ長以下のものがある場合がある。この場合、ソース属性のデータ型を、ターゲット属性のデータ長以下のデータ長である別のデータ型に型変換した上で、総合得点は元の点数、例えば第1得点と第2得点の合計点のままとしてもよい。
例えば、確認訂正システム108が設定するソース属性「確認日時」のデータ型は、データ長17バイトの「yyyyMMddHHmmssfff」(fffは秒の小数点以下3桁の値)の形式であるdatetime型である。このデータ長17バイトは、ターゲット属性「発注No.」のデータ長12バイトよりも長い。ここで、datetime型がデータ長8バイトの「yyyyMMdd」の形式であるdate型に変換可能であることが属性関連付けシステム120に登録されているとする。この場合、ソース属性「確認日時」のデータ型をdatetime型からdate型に変換すれば、そのソース属性のデータ長はターゲット属性のデータ長以下となる。そこで、ソース属性「確認日時」については、データ型をdate型に変換した上で、その得点を評価する。この場合、名前に関する第1得点は0点だが、データ型についてはdate型はstring型に対して20点なので第2得点は20点である。そして、8バイト長のdate型は、ターゲット属性のデータ長12バイト以下なので、0点への強制変更はなされない。このため、date型へ変更後のソース属性「確認日時」の総合得点は20点となる。
なお、属性のデータ長は、属性のデータ型と共に、属性のデータ形式の要素と捉えてもよい。属性のデータ形式は、属性の値の形式のことである。上述の例では、型変換辞書124にて、ターゲット型に変換可能なソース型に対して第2得点を定めていたが、この第2得点は、ターゲット型とソース型の類似度を示す得点と捉えてよい。例えば、ターゲット型とソース型が同じである場合、両者の類似度は最大であり、この場合、ソース型には最高得点が与えられる。したがって、データ形式がデータ型のことを指すとした場合、第2得点はターゲット属性とソース属性とのデータ形式同士の類似度を示す評価値といえる。また上述の例では、ソース属性のデータ長がターゲット属性のデータ長より大きい場合に総合得点を強制的に0点にした。これはソース属性のデータ長がターゲット属性のデータ長以下であれば前者は後者に類似し、そうでなければ類似しないという2段階の類似度を定めたものと捉えてよい。この場合、データ形式についての得点である第2得点は、データ長が類似しない場合には負の点数(例えば-1点)、類似する場合には型変換辞書124に規定される点数とし、第2得点が負値の場合は、第1得点が何点であっても総合得点を強制的に0点とする。0点という総合得点は、0以上の値域をとる総合得点の最低点であり、ソース属性がターゲット属性に対してまったく関連がない(又は関連が極めて薄い)ことを示す。一つの例では、総合得点が0点のソース属性は、ユーザがターゲット属性に対するソース属性を選ぶ際の選択肢に入れない。
図5に示す例では、ターゲット属性は、32バイト長のint型の「発注金額」である。この例では、OCRシステム106のソース属性「注文番号」及び「合計金額」、並びに確認訂正システム108のソース属性「合計金額」は、いずれもstring型であるが、その属性の値に含み得る文字が制限されている。例えば、OCRシステム106のソース属性「注文番号」は、12バイト長の文字列(すなわちstring)であり、その文字列に含まれる文字は半角英数字(すなわち0-9までの数字と英小文字と英大文字)に限られる。また「合計金額」のデータ型は、string[\,.0-9]である。すなわち「合計金額」は、半角の「\」マークの後に半角数字が続く32バイトの文字列である。型変換辞書124には、ターゲット型intに対して、ソース型としてint型は30点、半角の「\」マークの後に半角数字が続くstring型は20点、boolean型は5点が定められている。なお、半角の「\」マークの後に半角数字が続く形式に該当しないstring型は、型変換辞書124のターゲット型intに対応するソース型として登録されていない。これは、そのような一般的なstring型はターゲット型intに変換不可であることを示す。このように、型変換辞書124には、ターゲット型に変換不可であるソース型は登録されない。
この例では、例えばOCRシステム106のソース属性について説明すると、まず「注文番号」は、ターゲット属性の名前に含まれる用語「発注」に対して30点の用語「注文」を含んではいるので、第1得点は30点である。しかし、そのソース型は小文字及び大文字のアルファベットを含み得るstring型であり、これはターゲット型intに変換不可である。この例では、ソース型がターゲット型に変換不可の場合、第2得点は、例えば総合得点を強制的に0点にすることを示す値とする。したがって、図5の例では、ターゲット属性「発注金額」に対するソース属性「注文番号」の総合得点は0点となる。同様に、「注文日」も、そのデータ型dateがターゲット型へと変換不可なので、総合得点は0点となっている。「得意先名」は、名前に関する第1得点が0点であると共に、データ長がソースのデータ長よりも大きいためソース型はターゲット型に変換不可である。これら両方の点から「注文日」の総合得点は0点となる。またソース属性「合計金額」は、名前用語辞書122にてターゲット属性の名前の用語「金額」に対して30点の用語「合計金額」を含んでいるので、第1得点が30点である。またそのデータ型string[\,.0-9]は、ターゲット型intに対して20点なので、第2得点は20点である。これらから、OCRシステム106のソース属性「合計金額」の総合得点は50点となる。
しかし、OCRシステム106のソース属性「合計金額」は、確認訂正システム108のソース属性「合計金額」と同じものであることが分かると、ワークフロー上の順序が相対的に前であるOCRシステム106のソース属性「合計金額」の総合得点は所定の点数(図示例では30点)だけ減点される。
ワークフロー上の異なるサブシステムにおいて同じ属性が設定される場合、それは、あるサブシステムが設定したその属性の値を、ワークフロー上での順序がそれより後の別のサブシステムが修正又は上書きすることを意味する。したがって、同じ属性であれば、順序が後のサブシステムが設定した値の方が、順序が前のサブシステムが設定した値よりも、ターゲット属性の値に相応しい可能性が高い。そこで、順序が後の確認訂正システム108のソース属性「合計金額」の総合得点50点は維持し、順序が前のOCRシステム106のソース属性「合計金額」の総合得点を減点するのである。この減点により総合得点が0点以下になる場合には、その総合得点を、0点より高い最低点(例えば5点)に変更する。総合得点は0点以上の値であり、0点はソース属性がターゲット属性にまったく関連しないことを示す値である。これに対して、総合得点が所定値だけ減点されたソース属性は、減点は受けたものの、属性の名前やデータ形式からみてターゲット属性とまったく関連がないとはいえない。そこで、減点されたソース属性が、属性間の関連付けを最終的に判断するユーザに提示する選択肢から外されないよう、減点後の点数の下限を0点より高い点数にとどめている。総合得点が0点よりも高いというのは、ソース属性をGUI画面800に表示する候補に選定するための閾値に相当する。
このように、図5に示した例では、互いに関連するOCRシステム106のソース属性「合計金額」と確認訂正システム108のソース属性「合計金額」のうち、上流側である前者の総合得点を減点している。このような減点により、下流側のサブシステムの属性の方が、ターゲット属性により関連が強いものとして扱われることとなる。
以上に説明した処理により、ターゲット属性に対する各ソース属性の総合得点を求めると、次に属性関連付けシステム120は、ターゲット属性に関連付けるソース属性を決定するためのUI(ユーザインタフェース)画面を生成し、ユーザに提示する。このUI画面は、例えばGUI(グラフィカルUI)の形態(以下、GUI画面と呼ぶ)のものとする。
本実施形態では、ソース属性を総合得点に基づいて、(a)自動マッピング候補、(b)レコメンド候補、(c)一般候補、(d)非候補、の4種類に分類する。
分類(a)に属するソース属性、すなわち自動マッピング候補は、ターゲット属性に対して自動マッピング、すなわち自動的な関連付け、が行われるソース属性である。自動マッピング候補は、GUI画面において、ターゲット属性に対する自動的なマッピング結果として表示される。この自動的なマッピング結果は、ユーザによって別の候補へと変更可能であるが、ユーザがこのような変更を行わなければ、ターゲット属性に対する最終的なマッピング結果としてターゲットシステムに登録されることとなる。すなわち自動マッピング候補は、ターゲット属性に関連付けるソース属性として仮選択されたソース属性であるといえる。自動マッピング候補は、GUI画面上で、分類(b)に属するレコメンド候補や、分類(c)に属する一般候補よりも、強調された表示形態で表示される。マッピング候補は、通常の利用シーンでは、1つのターゲット属性に対して高々1つである。
分類(b)に属するレコメンド候補は、マッピング対象としてユーザにレコメンドすなわち推奨するソース属性である。レコメンド候補は、自動マッピング候補よりもターゲット属性に対する関連度合い(すなわち総合得点)が低いので、自動マッピングは行わず、ユーザにレコメンドするにとどめる。レコメンド候補は、GUI上では、分類(c)に属する一般候補より強調された表示形態で表示される。レコメンド候補は、GUI画面上でユーザからマッピング対象として選択されてはじめて、ターゲット属性に関連付けられる資格を得る。逆に言えば、単にレコメンドされただけで、ユーザからマッピング対象に選択されていないソース属性は、ターゲット属性と関連付けられない。レコメンド候補の数は、高々一つ、又は比較的少数に制限される。
分類(c)に属する一般候補は、マッピング対象の選択肢としてユーザに提示されるソース属性である。一般候補の総合得点は、レコメンド候補のそれよりも低いが、0点よりは高い。
分類(d)に属する非候補は、マッピング対象の選択肢すなわち候補でないソース属性である。非候補に該当するソース属性の総合得点は0点である。0点は、総合得点が取りうる値の範囲の中の最低点である。総合得点が0点のソース属性は、名前及びデータ形式のいずれの観点からもターゲット属性と関連がないといえる。
自動マッピング候補は、ターゲット属性と同じ属性である可能性が極めて高いソース属性であり、逆に言えばこれをターゲット属性に関連付けたとしても誤りとなる可能性は極めて低い。これに対して、レコメンド候補は、ターゲット属性と同じ属性である可能性は高いが、そうでない可能性もある程度あるため、自動的に関連付けることはせず、ユーザに推奨するにとどめる。一般候補は、ターゲット属性と同じ属性である可能性はあるが、そうでない可能性も低くないので、推奨すらせず、単に一般的な候補としてユーザに提示する。非候補は、ターゲット属性と同じ属性である可能性がないソース属性であり、これについては、候補にすら選ばない。
図6を参照して、属性関連付けシステム120によるソース属性の分類処理について例示する。この処理では、属性関連付けシステム120内の閾値記憶部602に記憶されている二つの閾値、すなわち第1閾値A及び第2閾値B(ただしA>B)を用いる。
属性関連付けシステム120は、ターゲット属性ごとに、そのターゲット属性に対する各ソース属性の総合得点を計算する。そして、ソース属性のうち総合得点が最高点のものを探索し、その最高点を第1閾値A及び第2閾値Bと比較する(604)。そして、最高点が第1閾値A以上であれば、その最高点を持つソース属性を、分類(a)すなわち自動マッピング候補に選ぶ(606)。またその最高点が第2閾値B以上かつ第1閾値A未満であれば、その最高点を持つソース属性をレコメンド候補に選ぶ(608)。またその最高点が第2閾値B未満だが0より高ければ、その最高点を持つソース属性を一般候補とする(610)。そして、その最高点が0点の場合、その最高点を持つソース属性を非候補とする(612)。
図6に例示したのは、あるターゲット属性に対する総合得点が最高点であるソース属性についての分類処理であった。総合得点が最高点より低いソース属性については、一つの例では、総合得点が0より高いものは一律に一般候補とし、総合得点が0点のものは非候補とする。この例では、最高点である単一のソース属性のみが、自動マッピング候補又はレコメンド候補となり得る。
また、別の例として、最高点以外のソース属性にも、自動マッピング(606)を除き、図6に示したものと同様の分類を行ってもよい。自動マッピング候補は、高々一つに限定されるので、最高点以外のものは自動マッピング候補にはならない。最高点以外のソース属性で、その総合得点が第1閾値A以上のものは、自動マッピング候補ではなくレコメンド候補とする。また、レコメンド候補の数に上限を設けている場合、総合得点が第2閾値B以上であるソース属性のうち、自動マッピング候補を除いて総合得点が上位からその上限の数までのものはレコメンド候補とし、その数を超えたものについては一般候補とする。
図7に、ターゲットシステムである基幹システム110の2つのターゲット属性、発注No.及び発注金額についての、属性関連付けシステム120によるソース属性の分類結果のデータを例示する。
この例では、発注No.に対しては、自動マッピング候補702として、「[OCR]>「注文番号」」と表現されるソース属性が選ばれている。「[OCR]>「注文番号」」と言う表現は、OCRシステム106が設定する属性のうちの「注文番号」という名前の属性を指し示す。すなわち、この表現のうち「>」より左側はソースシステムの識別名であり、右側はそのソースシステムが設定する属性の名前を示す。また、発注No.に対して、一般候補706として「[OCR]>「注文日」」、「[確認訂正]>「案件番号」」、「[確認訂正]>「確認日時」」と言う3つの属性が選ばれている。このうち例えば「[確認訂正]>「案件番号」」は、確認訂正システム108が設定する属性のうち名前が「案件番号」である属性を指し示す。
また図7の例では、ターゲット属性「発注金額」に対しては、レコメンド候補704として確認訂正システム108が設定する属性「合計金額」が、一般候補706としてOCRシステム106が設定する属性「合計金額」が、それぞれ選ばれている。
図8に、属性関連付けシステム120がユーザに提示するGUI画面800の例を示す。
このGUI画面800は、基幹システム110をターゲットシステムとした場合のものであり、同画面内にはターゲットシステムの名前802が表示される。またこのGUI画面800には、必要属性804とマッピング属性806のペアが列挙して表示される。必要属性804はターゲットシステムが設定するターゲット属性であり、マッピング属性806はそのターゲット属性に対して関連付けるソース属性である。
属性関連付けシステム120が上述の方法でターゲット属性に対する自動マッピング候補を見いだした場合、ユーザに対してGUI画面800を最初に提示する時点では、そのターゲット属性に対するマッピング属性806の欄にその自動マッピング候補を表示する。図8に示したGUI画面800がそのような「最初に提示する」画面であった場合、必要属性804の「発注No.」に対するマッピング属性806であるOCRシステム106のソース属性「注文番号」は、自動マッピングされたものである。これに対して、「見積No.」、「発注日」、「発注金額」については、自動マッピング候補は見いだされていない。
マッピング属性806の欄に表示されるマッピング属性は、そのソース属性を設定するソースシステムを特定する情報と、そのソース属性の名前と、の組で表現される。図示例における「発注No.」に対するマッピング属性「[OCR]>「注文番号」」のうち、[OCR]は、そのマッピング属性を設定するソースシステムであるOCRシステム106を示す。また「注文番号」はそのマッピング属性の属性名である。
マッピング属性806の欄の右側にはマッピング属性806の候補リスト810を呼び出すためのボタン808が表示される。候補リスト810又は820は、例えばプルダウンメニューの形態で表示される。
図示例では、例えば必要属性「発注No.」に対応するボタン808がユーザにより押下されると、候補リスト810が表示される。この候補リスト810には一般候補であるソース属性が三つ列挙されている。
この候補リスト810に示される候補のソース属性も、そのソース属性を設定するソースシステムを特定する情報と、そのソース属性の名前と、の組で表現される。この表現により、ユーザは、表示された各候補がどのサブシステムのどの属性であるかを把握しやすい。
この候補リスト810に示された最下段の候補「[確認訂正]>「確認日時」」には警告マーク812が表示されている。この警告マーク812は、その候補を必要属性「発注No.」にマッピングするには型変換が必要であることを示す。警告マーク812をクリックする等の操作に応じて、「マッピングするにはdatetime型からdate型が必要です。」といった、必要な型変換を説明するメッセージを表示してもよい。
また例えば必要属性「発注金額」に対応するボタン808がユーザにより押下されると、候補リスト820が表示される。この候補リスト820には2つの候補が含まれる。そのうちの最初の候補「[確認訂正]>「合計金額」」はレコメンド候補であり、その下の一般候補である「[OCR]>「合計金額」」よりも表示が強調されている。一般候補に対するレコメンド候補の表示の強調の仕方は特に限定されない。例えば、文字又は背景の色をより目立つ色にすることで強調を行ってもよい。
図8に示した必要属性「発注No.」及び「発注金額」についての例は、図4及び図5に示した総合得点の例において、第1閾値Aを80点、第2閾値Bを50点とした場合の例である。
ユーザは、表示されたGUI画面800上で、各必要属性804に対してマッピング属性806を決定していく。例えば、必要属性「発注金額」にマッピング属性806が表示されていないことを認識したユーザは、候補リスト820を呼び出し、その候補リスト820に列挙された候補の中から、マッピング属性とするものを選択する。候補リスト820の中からユーザが例えば「[確認訂正]>「合計金額」」を選択すると、属性関連付けシステム120は、「発注金額」に対するマッピング属性806の欄に「[確認訂正]>「合計金額」」を表示する。また、ユーザは、必要属性「発注金額」のマッピング属性806の欄に表示されている「[OCR]>「注文番号」」が正しいか確認するために、候補リスト810を呼び出して他の候補を確認してもよい。候補リスト810の中に「[OCR]>「注文番号」」よりも相応しいマッピング対象のソース属性がある場合、ユーザは候補リスト810上のそのソース属性を選択する。これに応じて、属性関連付けシステム120は、選択されたソース属性をマッピング属性806の欄に表示する。また、マッピング属性806欄内の「[OCR]>「注文番号」」が正しいことを確認した場合は、候補リスト810を単に閉じればよい。
なお、必要属性804の中には、ソース属性への関連付けが不要なものもある。例えばターゲットシステム上でユーザが値を入力するターゲット属性については、ソース属性への関連付けは不要である。このようにソース属性への関連付けが不要な必要属性については、マッピング属性806は空欄のままとなる。
ユーザは、ターゲットシステムにおける必要属性へのマッピング属性806の指定を終えると、完了ボタン830を押下する。この押下に応じて、属性関連付けシステム120は、GUI画面800に表示されている各必要属性804に対するマッピング属性806の情報を、ターゲットシステムに登録する。
ターゲットシステムは、必要属性に対応付けて登録されたマッピング属性の値をソースシステムから取得し、その必要属性の値に設定することにより、自分の処理を実行する。
次に、図9~図11を参照して、属性関連付けシステム120の処理手順の例を説明する。
図9は、全体的な処理手順の例を示す。
この処理のために、属性関連付けシステム120は、ワークフローシステムの構成を特定する情報の入力を受け付ける。この情報には、ワークフローを構成する各サブシステムを特定する情報、ワークフローにおけるそれらサブシステムの順序関係を特定する情報、各サブシステムが設定する属性の名前及びデータ形式を特定する情報が含まれる。
属性関連付けシステム120は、そのワークフローの上流側から順に、サブシステム間の属性の関連付けを行っていく。図9に示す手順では、属性関連付けシステム120は、ワークフローの最上流から2番目のサブシステムを注目システムとし(902)、注目システムが設定する各属性に対する、その上流のサブシステムが設定する属性の関連付けを決定するための処理を実行する。
この処理では、属性関連付けシステム120は、注目システムをターゲットシステムとして、関連付けのためのGUI画面800を生成して表示する(904)。ステップ904の処理の詳細な例については、あとで図10を参照して説明する。
次に属性関連付けシステム120は、GUI画面800に対するユーザからの入力を受け付ける(906)。ユーザからの入力には例えば、候補リスト810又は820の呼び出し、候補リスト810又は820からのマッピング属性の選択、完了ボタン830の押下等がある。次に属性関連付けシステム120は、ユーザの入力が完了ボタン830の押下か否かを判定し(908)、この判定の結果がNo(否定)ならば、ステップ906に戻ってユーザからの次の入力を受け付ける。ステップ908の判定結果がYesの場合、属性関連付けシステム120は、GUI画面800に表示された必要属性(=ターゲット属性)804とマッピング属性(=ソース属性)との関連付けをターゲットシステムに対して登録する(910)。
そして、属性関連付けシステム120は、現在の注目システムがワークフローにおける最下流のサブシステムであるか否かを判定する(912)。この判定の結果がNoの場合、ワークフローにおいて現在の注目システムから一つ下流のサブシステムを新たな注目システムとし(914)、ステップ904から912までの処理を繰り返す。ステップ912の判定結果がYesの場合、属性関連付けシステム120は、図9に示す全体的な処理手順を終了する。
以上に説明したように、図9の手順では、ワークフローの上流から順に、サブシステム間の属性同士の関連付けが決定されていく。
次に図10を参照して、上述したステップ904の処理の詳細な例を説明する。この手順では、属性関連付けシステム120は、まずステップ902又は914で決定された注目システムをターゲットシステムとし(1002)、ターゲットシステムの属性すなわちターゲット属性ごとにステップ1004の処理を繰り返す。ステップ1004では、各ターゲット属性について、上流の各サブシステムの各属性すなわちソース属性の関連度合いを評価する。このステップ1004の詳細な処理の例については、あとで図11を参照して説明する。
ステップ1004の後、属性関連付けシステム120は、ワークフローにおいてターゲットシステムの一つ上流のサブシステムが、そのワークフローの最上流であるか否かを判定する(1006)。この判定の結果がNoの場合、属性関連付けシステム120は、現在のターゲットシステムよりもワークフローにおいて1段階上流のサブシステムを新たなターゲットシステムとし(1008)、ステップ1004~1006の処理を繰り返す。
この繰り返しによりステップ1006の判定結果がYesとなると、属性関連付けシステム120は、注目システムの各属性に対する上流の各サブシステムの属性の関連度合いの得点を再評価する(1010)。この再評価は、確定済みの上流のサブシステム間での属性同士の関連付けに基づいて行う。すなわち、図9の手順のステップ904~914をワークフローの上流側から実行していくことにより、上流側から順に、サブシステムの属性に関連付ける更に上流のサブシステムの属性が、GUI画面800に対するユーザの操作により確定されていく。再評価では、このように関連付けが確定された属性同士の間では、例えば、最下流のものの総合得点は維持し、最下流以外のものの総合得点は減点する。減点幅は固定値であってもよいし、上流ほど減点幅を相対的に大きくしてもよい。なお、この例では互いに関連するものとして確定されたソース属性のうち、最下流のソース属性以外のものの総合得点を減点したが、これは一例に過ぎない。減点の代わりに、例えば、最下流のソース属性の総合得点を加点してもよい。
例えば、図1及び図5に示した例では、確認訂正システム108を注目システムとしたときのステップ904~914の処理にて、確認訂正システム108の属性「合計金額」に対してOCRシステム106の属性「合計金額」が関連付けられる。したがって、基幹システム110の属性「発注金額」に対する関連度合いの評価において、名前及びデータ形式に応じて算出された総合得点を再評価する際、下流側の確認訂正システム108の属性「合計金額」の総合得点は維持され、上流側であるOCRシステム106の属性「合計金額」の総合得点は所定値だけ減点される。
減点されたソース属性は、減点される前よりも、GUI画面800における、ユーザへの推奨のレベルが低くなる。すなわち、減点される前は第1閾値A以上あった総合得点が減点により第1閾値Aを下回れば、そのソース属性は自動マッピング候補としてGUI画面800に表示されることはなくなり、レコメンド候補又は一般候補として表示されることとなる。このように、減点されたソース属性は、ターゲット属性に対する関連の強い候補として表示されにくくなる。
次に属性関連付けシステム120は、注目システムの属性ごとに、ステップ1012~1020の処理を実行する。
すなわち、属性関連付けシステム120は、各ソース属性のうちステップ1004で求めた総合得点が最高点のものを抽出し(1012)、抽出したソース属性の総合得点を第1閾値Aと比較する(1014)。この比較の結果、総合得点が第1閾値A以上であるかどうかを判定し(1016)、総合得点が第1閾値A以上であれば、抽出したソース属性を、GUI画面800における自動マッピング候補に設定する(1018)。
この後属性関連付けシステムは、ステップ1004で計算した総合得点が0点より大きい各ソース属性をGUI画面800の一般候補に設定し(1020)、注目システムの属性についての処理を終了する。
ステップ1016の判定で、総合得点が第1閾値A未満であれば、属性関連付けシステム120は、抽出した属性の総合得点を第2閾値Bと比較し(1022)、この比較の結果、総合得点が第2閾値B以上であるかどうかを判定する(1024)。この判定で総合得点が第2閾値B以上であれば、抽出したソース属性を、GUI画面800におけるレコメンド候補に設定する(1026)。ステップ1024の判定で総合得点が第2閾値B未満であれば、抽出したソース属性をGUI画面800の一般候補に設定する(1028)。ステップ1026又は1028の後、ステップ1004で計算した総合得点が0点より大きい各ソース属性をGUI画面800の一般候補に設定し(1020)、注目システムの属性についての処理を終了する。
このようにして、図10の手順により、注目システムの各属性について自動マッピング候補、レコメンド候補、及び一般候補が設定され、GUI画面800が表示可能となる。
次に図11を参照して、上述したステップ1004の処理の詳細な手順を例示する。
この手順では、属性関連付けシステム120は、まずステップ1004で注目しているターゲット属性の情報、例えば名前、データ型、データ長等の情報を取得する(1102)。
次に属性関連付けシステム120は、個々のソース属性にそれぞれ注目し、それら注目するソース属性ごとに、ステップ1104~1124の処理を実行する。この処理では、まず注目するソース属性の名前、データ型、データ長等の情報を取得する(1104)。そして、ターゲット属性の名前と注目するソース属性の名前から、名前用語辞書122を参照して、名前の類似度を示す第1得点を計算する(1106)。またターゲット属性のデータ型と注目するソース属性のデータ型から、型変換辞書124を参照して、データ型の類似度を示す第2得点を計算する(1108)。次に、ターゲット属性のデータ長と注目するソース属性のデータ長とを比較し(1110)、後者が前者以下であるかどうかを判定する(1112)。この判定で、注目するソース属性のデータ長がターゲット属性のデータ長以下であれば(ステップ1112の判定結果が「小」)、第1得点と第2得点の合計を、注目するソース属性の総合得点にセットし(1124)、当該ソース属性についての処理を完了する。
ステップ1112の判定で、注目するソース属性のデータ長がターゲット属性のデータ長より大きい場合、属性関連付けシステム120は、そのソース属性をデータ長の異なる別のデータ型に変換可能かどうかを評価する(1114)。例えば、上述の例では、17バイトのdatetime型に対して8バイトのdate型が変換先として属性関連付けシステム120に登録されていた。このように、ソース属性のデータ型に対して、データ長の異なる別のデータ型が登録されているかをステップ1114で調べる。この評価の結果、変換可能かどうかを判定し(1116)、判定の結果が変換不可であれば、注目するソース属性の総合得点を0点にセットし(1118)、当該ソース属性についての処理を終了する。ステップ1116の判定の結果が変換可能であることを示す場合、変換後のデータ型のデータ長をターゲット属性のデータ長と比較し(1120)、前者が後者以下であるかどうかを判定する(1122)。変換後のデータ型のデータ長がターゲット属性のデータ長以下である場合、第1得点と第2得点の合計を、注目するソース属性の総合得点にセットし(1124)、当該ソース属性についての処理を完了する。ステップ1122の判定で、変換後のデータ型のデータ長がターゲット属性のデータ長より長い場合、注目するソース属性の総合得点を0点にセットし(1118)、当該ソース属性についての処理を終了する。
以上に説明した図11の処理手順により、各ソース属性のターゲット属性に対する総合得点が計算される。
以上に説明した図9~図11の処理手順では、ワークフローの上流のサブシステムから順に、そのサブシステムの属性をソース属性と関連付けていく。このようにすることで、サブシステムの属性についての関連付けの作業のやり直しが抑止又は低減される。
すなわち、仮に、下流側の装置が設定する属性についての関連付けを先に終えた後、それより上流の各装置が設定する属性同士の関連付けを行うと、それら上流の属性同士の関連付けの結果に応じてそれら属性の総合得点に対する減点が変化する。このため、各ソース属性の総合得点が変化し、その結果、属性関連付けシステム120がGUI画面800に提示する自動マッピング候補やレコメンド候補が変化し、これら候補をみて行うユーザの判断が変化し、関連付けのやり直しが必要になる可能性がある。これに対し、本実施形態のように上流側から関連付けを確定していけば、そのようなやり直しは起こりにくい。
以上、本実施形態の処理について説明した。
図9に示した手順では、ワークフローの上流側から順に全てのサブシステムを注目システムとし、注目システムのためのGUI画面800を提供した。別の例として、属性関連付けシステム120は、全ての属性について自動マッピング候補が求めることができた注目システムについては、GUI画面800を提供せず、それら各属性に対してそれぞれ自動マッピング候補を関連付けて注目システムに登録してもよい。
また、属性関連付けシステム120は、図12に例示するような進捗画面1200を画面に表示し、ユーザにワークフローの上流のサブシステムから順に属性マッピングの確認を促してもよい。進捗画面1200には、ワークフロー図1202が示される。ワークフロー図1202は、ワークフローを構成する各サブシステムを示すブロックと、それらブロック間の処理の流れを示す矢印から構成される。また、ワークフロー図内の各サブシステムのブロックの近傍には、そのサブシステムにおける属性マッピングの進捗状況を示すマーク1204、1206又は1208が表示される。マーク1204は、当該サブシステムが設定する属性の中に、図10及び図11の手順によりソース属性との自動マッピングができなかった属性があることを示す。マーク1206は、当該サブシステムが設定する全ての属性についてソース属性との自動マッピングができている(ただしユーザによるマッピングの確定操作は受けていない)ことを示す。またマーク1208は、当該サブシステムが設定する属性のマッピングについてユーザの確定操作が済んだことを示す。
進捗画面1200には、各マークの説明と、上流側からマッピングの確認又は入力を行うことを促すメッセージとが表示される。サブシステムに付されたマーク1204又は1206を選択してGUI画面800を開くことができるのは、そのサブシステムの上流の全てのサブシステムについて自動マッピング又はユーザによる確定が済んでいる場合に限ってもよい。すなわち、あるサブシステムに付されたマーク1204又は1206は、上流側のサブシステムの中にマーク1204が付されたものが一つでもあれば選択不可状態となり、そうでなければ選択可能状態となる。
属性関連付けシステム120は、図10及び図11に例示した処理が終わった時点では、各サブシステムにマーク1204又は1206を表示した進捗画面1200を表示する。あるサブシステムのマーク1204~1208がクリック操作等で選ばれると、属性関連付けシステム120は、GUI画面800(図8参照)をユーザに提示し、関連付けの確認又は入力を受け付ける。GUI画面800上でユーザが完了ボタン830を押下すると、当該サブシステムの属性マッピングがユーザにより確定されたことになり、進捗画面1200上の当該サブシステムのブロックに対してマーク1208が表示される。
さて、属性関連付けシステム120は、GUI画面800上でのユーザによるマッピング属性の選択結果を学習し、次回以降の得点の算出に反映させる機能を更に備えていてもよい。この機能は、GUI画面800の候補リスト810又は820(図8参照)内の候補をユーザがマッピング属性806に選択した場合、次回以降の属性マッピングの際、必要属性804(=ターゲット属性)に対するその候補の得点が高くなるように学習する。この学習は、例えば、ユーザが選択した候補の名前に含まれる用語の、必要属性の名前中の対応する用語に対する得点を上昇させることにより行う。
例えば、必要属性「見積No.」に対して、ユーザが候補リスト810中の「[確認訂正]>「案件番号」」をマッピング属性806に選択した場合を考える。
この選択が行われる前の名前用語辞書122では、用語「見積」に関するエントリは、図13の状態(a)に示すように、得点30点の類義語「見積」、「見積もり」、及び「見積り」のみが登録されていたものとする。この時点では用語「案件」は用語「見積」の類義語ではない。このため、ソース属性「[確認訂正]>「案件番号」」の、必要属性「見積No.」に対する属性の名前の類似度を示す第1得点は、用語「No.」に対する類義語「番号」の得点のみである。この結果、データ型の類似度を示す第2得点を加算した総合得点でも、そのソース属性は自動マッピング候補にはならず、一般候補に留まったとする。
この後、GUI画面800の候補リストで、ユーザが必要属性「見積No.」のマッピング属性806として候補リストからこのソース属性「[確認訂正]>「案件番号」」を選択したとする。この場合、属性関連付けシステム120は、「案件番号」を「見積No.」と同じ意味であることを認識し、用語「案件」を用語「見積」の類義語として名前用語辞書122に登録する。この場合の名前用語辞書122における「案件」の得点は、予め定めた値であってもよい。また、別の例として、ソース属性「[確認訂正]>「案件番号」」の総合得点が自動マッピング候補を選ぶ基準点すなわち第1閾値A以上となるために不足している点数を、用語「案件」の得点としてもよい。例えば、ソース属性「[確認訂正]>「案件番号」」の総合得点が60点であり、第1閾値Aが80点である場合、そのソース属性が自動マッピング候補となるのに不足する点数は20点である。このため、用語「案件」を用語「見積」の類義語として名前用語辞書122に登録する場合の得点は20点とすればよい。名前用語辞書122の用語「見積」に関するエントリに類義語「案件」を追加した状態を図13の状態(b)に示す。図13の状態(b)では、類義語「案件」に対する得点は20点とされている。
図13の例は、ユーザによるマッピング属性の選択の前に、用語「案件」が名前用語辞書122に類義語として登録されていない場合の例であった。一方、その選択の前に用語「案件」が用語「見積」の類義語として名前用語辞書122に登録済である場合もあり得る。この場合、属性関連付けシステム120は、ソース属性「[確認訂正]>「案件番号」」が選択されたことに応じて、名前用語辞書122における用語「見積」に対する類義語「案件」の得点を上昇させる。上昇幅は予め定められた値であってもよいし、ソース属性「[確認訂正]>「案件番号」」が自動マッピング候補となるのに不足している点数としてもよい。また、名前用語辞書122における用語「見積」に対する類義語「案件」の得点だけでなく、用語「No.」に対する類義語「番号」の得点も同時に上昇させてもよい。この場合の上昇分は、例えば上述した不足分の点数を「案件」と「番号」で均等割としたものとしてもよい。
100 :データエントリシステム
102 :メールサーバ
104 :スキャナ
106 :OCRシステム
108 :確認訂正システム
110 :基幹システム
112 :文書管理システム
120 :属性関連付けシステム
122 :名前用語辞書
124 :型変換辞書
302 :プロセッサ
304 :メモリ
306 :補助記憶装置
308 :入出力装置
310 :ネットワークインタフェース
312 :バス
800 :GUI画面
802 :名前
804 :必要属性
806 :マッピング属性
808 :ボタン
810 :候補リスト
812 :警告マーク
820 :候補リスト
830 :完了ボタン
102 :メールサーバ
104 :スキャナ
106 :OCRシステム
108 :確認訂正システム
110 :基幹システム
112 :文書管理システム
120 :属性関連付けシステム
122 :名前用語辞書
124 :型変換辞書
302 :プロセッサ
304 :メモリ
306 :補助記憶装置
308 :入出力装置
310 :ネットワークインタフェース
312 :バス
800 :GUI画面
802 :名前
804 :必要属性
806 :マッピング属性
808 :ボタン
810 :候補リスト
812 :警告マーク
820 :候補リスト
830 :完了ボタン
Claims (11)
- プロセッサを備え、
前記プロセッサは、
ワークフローを構成する複数の装置のうちの第1装置で設定されるデータである第1データと、前記複数の装置のうちの前記第1装置以外の装置で設定されるデータである第2データとの間の、名前同士の類似度である第1類似度と、データ形式同士の類似度である第2類似度とに基づいて、前記第1データに関連付けるべき前記第2データの候補を選定し、
選定された前記候補ごとに、前記第1データの名前と、当該候補の名前と、当該候補の設定が行われる前記装置の名前と、を互いに対応付けて表示する第1画面であって、前記候補の中から前記第1データと関連付ける第2データの選択を受け付けるための第1画面、を生成する、
ことを特徴とする情報処理装置。 - 前記第2データは、前記第1装置よりも前記ワークフローの上流の装置で設定されるデータであり、
前記プロセッサは、
前記ワークフローの上流側の前記装置から順に、当該装置を前記第1装置として前記第1画面を生成し、生成した前記第1画面を用いて1以上の前記候補の中から前記第1データに関連付けるものの選択を受け付ける、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記ワークフローの上流側の前記装置から順に行われた前記選択の結果互いに関連付けられた前記第2データ同士の間では、当該第2データが設定される前記装置が前記ワークフロー中で上流である前記第2データほど、前記第1画面において前記第1データに対する関連が強い候補として表示されにくくなることを特徴とする請求項2に記載の情報処理装置。
- 互いに関連付けられる前記第2データ同士の間では、当該第2データが設定される前記装置が前記ワークフロー中で上流である前記第2データほど、前記第1画面において前記第1データに対する関連が強い候補として表示されにくくなる、ことを特徴とする請求項1に記載の情報処理装置。
- 前記データ形式には、少なくともデータ型が含まれ、
前記第2データのうち前記第1データと同じデータ型のものは、そうでないものよりも前記第2類似度が高いと判定される、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第1データと同じデータ型でない前記第2データ同士の間では、型変換により前記第1データと同じデータ型に変換可能なものの方が、そうでないものよりも前記第2類似度が高いと判定される、
ことを特徴とする請求項5に記載の情報処理装置。 - 前記第1画面には、選定された前記候補のうち、前記第1データと同じデータ型にするために型変換が必要な前記候補は、前記第1データと同じデータ型にするために型変換が不要な前記候補とは区別可能な表示態様で表示される、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記データ形式には、データ長が含まれ、
前記第2データのうち前記第1データよりもデータ長が長いものは、前記候補に選定されない、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記プロセッサは、
前記第1画面に表示された前記候補の中からユーザが前記第1データに関連付ける前記候補を選択した場合に、前記ユーザから選択された前記候補である前記第2データについては、前記第1データとの前記名前同士の前記第1類似度が高く計算されるよう学習する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記候補の選定では、前記第1類似度と前記第2類似度とに基づき計算される点数が所定の第1閾値より高い前記第2データが前記候補として選定され、
前記第1画面では、前記点数が前記第1閾値よりも高い第2閾値以上である前記候補がある場合、当該候補は前記第1データと関連付けるものとして仮選択された状態で表示され、前記第1画面に対してユーザが前記第1データと関連付ける前記候補を選択する操作を行わなかった場合、前記仮選択された状態の前記候補が前記第1データと関連付けるものとして選択されたものとみなされる、
ことを特徴とする請求項1に記載の情報処理装置。 - コンピュータに、
ワークフローを構成する複数の装置のうちの第1装置で設定されるデータである第1データと、前記複数の装置のうちの前記第1装置以外の装置で設定されるデータである第2データとの間の、名前同士の類似度である第1類似度と、データ形式同士の類似度である第2類似度とに基づいて、前記第1データに関連付けるべき前記第2データの候補を選定し、
選定された前記候補ごとに、前記第1データの名前と、当該候補の名前と、当該候補の設定が行われる前記装置の名前と、を互いに対応付けて表示する第1画面であって、前記候補の中から前記第1データと関連付ける第2データの選択を受け付けるための第1画面、を生成する、
処理を実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020166861A JP2022059247A (ja) | 2020-10-01 | 2020-10-01 | 情報処理装置及びプログラム |
US17/321,487 US20220107711A1 (en) | 2020-10-01 | 2021-05-16 | Information processing apparatus and non-transitory computer readable medium storing program |
CN202110746437.XA CN114282138A (zh) | 2020-10-01 | 2021-07-01 | 信息处理装置、存储介质及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020166861A JP2022059247A (ja) | 2020-10-01 | 2020-10-01 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022059247A true JP2022059247A (ja) | 2022-04-13 |
Family
ID=80868324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020166861A Pending JP2022059247A (ja) | 2020-10-01 | 2020-10-01 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220107711A1 (ja) |
JP (1) | JP2022059247A (ja) |
CN (1) | CN114282138A (ja) |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100785A1 (en) * | 2005-11-01 | 2007-05-03 | Herbert Hackmann | Managing attributes in a digital information system |
WO2011151111A1 (en) * | 2010-06-03 | 2011-12-08 | International Business Machines Corporation | Method and system of adapting a data model to a user interface component |
US9299050B2 (en) * | 2012-09-04 | 2016-03-29 | Optymyze PTE Ltd. | System and method of representing business units in sales performance management using entity tables containing explicit entity and internal entity IDs |
JP2015122054A (ja) * | 2013-11-25 | 2015-07-02 | 株式会社リコー | 情報処理装置、情報処理方法、及びプログラム |
JP6427592B2 (ja) * | 2014-03-07 | 2018-11-21 | アビニシオ テクノロジー エルエルシー | データ型に関連するデータプロファイリング操作の管理 |
CN105094707B (zh) * | 2015-08-18 | 2018-03-13 | 华为技术有限公司 | 一种数据存储、读取方法及装置 |
US10705812B2 (en) * | 2016-08-22 | 2020-07-07 | Oracle International Corporation | System and method for inferencing of data transformations through pattern decomposition |
JP6723893B2 (ja) * | 2016-10-07 | 2020-07-15 | 株式会社日立製作所 | データ統合装置およびデータ統合方法 |
US10628421B2 (en) * | 2017-02-07 | 2020-04-21 | International Business Machines Corporation | Managing a single database management system |
EP3746884A4 (en) * | 2018-01-29 | 2021-11-03 | Rubikloud Technologies Inc. | PROCESS AND SYSTEM FOR GENERATING A FLEXIBLE PIPELINE ARCHITECTURE |
US11368476B2 (en) * | 2018-02-22 | 2022-06-21 | Helios Data Inc. | Data-defined architecture for network data management |
US20200394225A1 (en) * | 2019-06-14 | 2020-12-17 | Salesforce.Com, Inc. | Prepackaged data ingestion from various data sources |
US11269905B2 (en) * | 2019-06-20 | 2022-03-08 | International Business Machines Corporation | Interaction between visualizations and other data controls in an information system by matching attributes in different datasets |
-
2020
- 2020-10-01 JP JP2020166861A patent/JP2022059247A/ja active Pending
-
2021
- 2021-05-16 US US17/321,487 patent/US20220107711A1/en active Pending
- 2021-07-01 CN CN202110746437.XA patent/CN114282138A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220107711A1 (en) | 2022-04-07 |
CN114282138A (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10366123B1 (en) | Template-free extraction of data from documents | |
US8019769B2 (en) | System and method for determining valid citation patterns in electronic documents | |
US8468167B2 (en) | Automatic data validation and correction | |
US9372721B2 (en) | System for processing data received from various data sources | |
US20240012846A1 (en) | Systems and methods for parsing log files using classification and a plurality of neural networks | |
JP2019086984A (ja) | 計算機及び文書識別方法 | |
US10733675B2 (en) | Accuracy and speed of automatically processing records in an automated environment | |
CN110999264B (zh) | 用于将消息内容集成到目标数据处理设备中的系统和方法 | |
US9286526B1 (en) | Cohort-based learning from user edits | |
CA3048356A1 (en) | Unstructured data parsing for structured information | |
US11568284B2 (en) | System and method for determining a structured representation of a form document utilizing multiple machine learning models | |
CN110866836B (zh) | 计算机执行的医疗保险立案审核方法和装置 | |
US8249351B2 (en) | Recording medium for recording logical structure model creation assistance program, logical structure model creation assistance device and logical structure model creation assistance method | |
US20220188517A1 (en) | Hierarchical machine learning architecture including master engine supported by distributed light-weight real-time edge engines | |
US11763588B2 (en) | Computing system for extraction of textual elements from a document | |
EP4141818A1 (en) | Document digitization, transformation and validation | |
CN115223188A (zh) | 票据信息处理方法、装置、电子设备及计算机存储介质 | |
JP2021089667A (ja) | 情報処理装置及びプログラム | |
JP2022079439A (ja) | 文書画像から情報を抽出する方法及びシステム | |
US20230306193A1 (en) | Information processing apparatus, non-transitory computer readable medium, and method for processing information | |
US20220107711A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP2011198285A (ja) | 文書処理システム、及びプログラム | |
US20240193370A1 (en) | Information processing apparatus, information processing system, information processing method, and storage medium | |
US11868726B2 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium |