JP2024024178A - 計算機システム及び業務プロセスを表す構造化データの生成方法 - Google Patents

計算機システム及び業務プロセスを表す構造化データの生成方法 Download PDF

Info

Publication number
JP2024024178A
JP2024024178A JP2022126821A JP2022126821A JP2024024178A JP 2024024178 A JP2024024178 A JP 2024024178A JP 2022126821 A JP2022126821 A JP 2022126821A JP 2022126821 A JP2022126821 A JP 2022126821A JP 2024024178 A JP2024024178 A JP 2024024178A
Authority
JP
Japan
Prior art keywords
entity
order
procedures
entities
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022126821A
Other languages
English (en)
Inventor
絵理 照屋
Eri Teruya
理 竹内
Osamu Takeuchi
正太郎 我妻
Shotaro Agatsuma
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2022126821A priority Critical patent/JP2024024178A/ja
Priority to PCT/JP2023/014180 priority patent/WO2024034179A1/ja
Publication of JP2024024178A publication Critical patent/JP2024024178A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】業務プロセスが記載された文書から情報処理が可能な構造化データを生成する。【解決手段】計算機システムは、複数の手順からなる業務プロセスが記載された文書からエンティティを抽出し、エンティティのカテゴリを分類する。計算機システムは、一つ以上のエンティティから構成され、一つの手順に対応するエンティティグループを複数生成し、エンティティグループの各々について、エンティティグループに含まれる一つ以上のエンティティのカテゴリに基づいて、エンティティグループに対応する手順を特徴づけるエンティティである主エンティティを特定する。計算機システムは、主エンティティ間の関係性に基づいて、複数の手順の順序を判定する処理を実行し、処理の結果に基づいて複数の手順の順序を決定し、業務プロセスの構造化データとして、順序づけされたエンティティグループに関する情報を生成する。【選択図】図11

Description

本発明は、プロセス情報構造化システム、及びプロセス情報構造化方法に関する。
近年、様々な分野において、複数の手順からなる業務プロセスを、AIを用いて支援、効率化、及び最適化等をしたいというニーズが顕在化している。例えば、産業分野では、装置の操作手順のリコメンド、及び装置の故障に対するプロセスのリコメンドを行うAIが実用化され、医療分野では、診断、治療、及び投薬行為の支援を行うAIが実用化され、素材分野では、新素材の合成プロセスのリコメンドを行うAIが実用化されている。
AIを用いた業務プロセスの支援等を実現するためには、一般に業務プロセスを情報処理が可能なデータを用意する必要がある。しかし、業務プロセスに関わる情報は、自然言語で記載された文書(装置の保守報告書、医療カルテ、実験報告書など)として蓄積されている場合が多いため、そのままでは情報処理が困難である。したがって、文書に記載された情報を情報処理が可能な構造化データに変換する必要がある。
図24A及び図24Bは、業務プロセスの構造化のイメージを記す図である。図24Aは保守に係る業務プロセスの構造化のイメージを表し、図24Bは物質製造に係る業務プロセスの構造化のイメージを表す。
手動で文書から構造化データを生成するためには、莫大な時間と専門知識とが必要である。そのため、自動で文書から構造化データを生成する技術が望まれている。これに対して、特許文献1、非特許文献1、及び非特許文献2に記載の技術が知られている。
特許文献1には、「語句抽出条件学習部と、語句抽出部と、語句関係抽出条件学習部と、語句関係抽出部と、出力部と、を備える」文書理解支援装置が記載されている。また、「語句抽出条件学習部は、各語句に付与された特徴量に基づく学習により、支援用電子文書から語句を抽出するための語句抽出条件を生成する」こと、「語句抽出部は、語句抽出条件を満たす語句を抽出する」こと、「語句関係抽出条件学習部は、抽出対象語句関係に対する特徴量に基づく学習により、支援用電子文書から関係語句を抽出するための語句関係抽出条件を生成する」こと、「語句関係抽出部は、語句関係抽出条件を満たす語句関係を抽出する」ことが記載されている。
非特許文献1及び非特許文献2には、料理のレシピが記載された文書から、料理のレシピを構造化したデータを出力する技術が記載されている。非特許文献1及び非特許文献2に記載の技術では、食材及び調理法の係り受け等に関するルールを用いて、料理のレシピを構造化データの生成が行われている。
特開2019-79321号公報
料理レシピテキストの構造解析とその応用,言語処理学会第18回年次大会発表論文集,pp.839-842 料理テキスト教材における調理手順の構造化,電子情報通信学会論文誌 D ,Vol.J85-D2,No.1,pp.79-89
特許文献1の技術では、精度を確保するために大量の学習データが必要となる。そのため、学習データが少ない分野では適用が難しい。また、非特許文献1及び非特許文献2の技術では、緻密なルールを設定する必要がある。
本発明は、前述の課題に鑑みてなされたものであり、緻密なルールを用いずに、業務プロセスが記載された文書から構造化データを精度よく生成するシステム及び方法を提供することを目的とする。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、少なくとも一つの計算機を備える計算機システムであって、複数の手順からなる業務プロセスが記載された文書の入力を受け付け、前記文書から、前記業務プロセスに関連する表現をエンティティとして抽出し、前記エンティティのカテゴリを分類し、一つ以上の前記エンティティから構成され、一つの前記手順に対応するエンティティグループを複数生成し、前記エンティティグループの各々について、前記エンティティグループに含まれる一つ以上の前記エンティティのカテゴリに基づいて、前記エンティティグループに対応する前記手順を特徴づける前記エンティティである主エンティティを特定し、前記主エンティティ間の関係性に基づいて、前記複数の手順の順序を判定する第1順序判定処理を実行し、前記第1順序判定処理の結果に基づいて、前記複数の手順の順序を決定し、前記業務プロセスの構造化データとして、順序づけされた前記エンティティグループに関する情報を生成し、出力する。
本発明によれば、緻密なルールを用いずに、業務プロセスが記載された文書から構造化データを精度よく生成することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
実施例1のシステムの一例を示す図である。 実施例1の計算機のハードウェア構成の一例を示す図である。 実施例1の文書データベースの一例を示す図である。 実施例1の構造化ルールデータベースに格納されるエンティティ/カテゴリ辞書の一例を示す図である。 実施例1の構造化ルールデータベースに格納される手順カテゴリ判定ルール情報の一例を示す図である。 実施例1の構造化ルールデータベースに格納される主エンティティ判定ルール情報の一例を示す図である。 実施例1の構造化ルールデータベースに格納される並列性判定ルール情報の一例を示す図である。 実施例1の構造化ルールデータベースに格納される業務プロセス順序判定ルール情報の一例を示す図である。 実施例1の構造化ルールデータベースに格納される手順順序判定ルール情報の一例を示す図である。 実施例1の構造化ルールデータベースに格納される関係性定義情報の一例を示す図である。 実施例1の構造化処理装置が実行する構造化データ生成処理の概要を説明するフローチャートである。 実施例1の構造化処理装置が生成する情報の一例を示す図である。 実施例1の構造化処理装置が生成する情報の一例を示す図である。 実施例1の構造化処理装置が生成する情報の一例を示す図である。 実施例1の構造化処理装置が生成する情報の一例を示す図である。 実施例1の構造化処理装置が生成する情報の一例を示す図である。 実施例1の構造化処理装置が生成する情報の一例を示す図である。 実施例1の構造化処理装置が生成する構造化データの一例を示す図である。 実施例1のユーザ端末に表示される構造化データの一例を示す図である。 実施例1のユーザ端末に表示される構造化データの一例を示す図である。 実施例1の構造化処理装置が実行する手順カテゴリ判定処理の一例を説明するフローチャートである。 実施例1の構造化処理装置が実行する主エンティティ判定処理の一例を説明するフローチャートである。 実施例1の構造化処理装置が実行する並列性判定処理の一例を説明するフローチャートである。 実施例1の構造化処理装置が実行する手順順序判定処理の一例を説明するフローチャートである。 業務プロセスの構造化のイメージを記す図である。 業務プロセスの構造化のイメージを記す図である。
以下、実施形態について図面を参照しつつ説明する。尚、以下、図面を参照して本発明の実施形態を説明する。以下の記載及び図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
以下の説明において、同一又は類似の構成について同一の符号を付して重複した説明を省略することがある。また、以下の説明において、符号の前に付した「S」の文字は処理ステップを意味する。また、以下の説明では、「テーブル」、「情報」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。
さらに、以下の説明においては、実験報告書に記載された素材の合成プロセスに関する情報を構造化する例で記載するが、構造化対象は背景技術に記載した様々な分野、対象、ユースケースに関して適用することが可能である。
図1は、実施例1のシステムの一例を示す図である。図2は、実施例1の計算機200のハードウェア構成の一例を示す図である。
図1に示すシステム10は、構造化処理装置100及びユーザ端末101から構成される。構造化処理装置100及びユーザ端末101は、通信ネットワーク102を介して、双方向通信が可能な状態で接続される。通信ネットワーク102は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、公衆通信網、専用線等である。尚、ユーザ端末101の数は二つ以上でもよい。以下の説明では、システム10を構造化システム10とも記載する。
構造化処理装置100及びユーザ端末101は、例えば、図2に示すような計算機200から構成される。計算機200は、演算装置201、主記憶装置202、補助記憶装置203、入力装置204、出力装置205、及び通信装置206を備える。
演算装置201は、主記憶装置202に格納されるプログラムを実行する。演算装置201は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等である。演算装置201がプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部(モジュール)として動作する。以下の説明では、機能部を主語に処理を説明する場合、演算装置201が当該機能部を実現するプログラムを実行していることを示す。
主記憶装置202は、演算装置201が実行するプログラム及びデータを格納する。主記憶装置202は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、NVRAM(Non Volatile RAM)等の不揮発性メモリ等である。尚、主記憶装置202は、ワークエリアとしても用いられる。
補助記憶装置203は、永続的にデータを格納する。補助記憶装置203は、例えば、SSD(Solid State Drive)及びハードディスクドライブ等である。尚、計算機200は、補助記憶装置203を有していなくてもよい。この場合、プログラム及びデータは、CD(Compact Disc)、DVD(Digital Versatile Disc)等の光学式記憶装置、ICカード、及びSDカード等から取得してもよいし、外部接続されるストレージシステム、及びクラウドシステム上の記憶領域から取得してもよい。補助記憶装置203に格納されるプログラム及びデータは、演算装置201によって読み出され、主記憶装置202にロードされる。
入力装置204は、外部からの入力を受け付けるインタフェースである。入力装置204は、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。
出力装置205は、処理経過及び処理結果等の各種情報を出力するインタフェースである。出力装置205は、例えば、液晶モニタ及びLCD(Liquid Crystal Display)等の表示装置、音声出力装置、並びにプリンタ等である。
尚、計算機200は、入力装置204及び出力装置205を有していなくてもよい。この場合、計算機200は、通信装置206を介して、情報の入力及び出力を行う。
通信装置206は、他の装置との間で通信する。通信装置206、例えば、NIC(Network Interface Card)、無線通信モジュール、及びUSBモジュール等である。
構造化処理装置100は、業務プロセスが自然言語で記載されたテキストを含む文書データから構造化データを生成する。
ここで、業務プロセスは複数の手順から構成されるものとする。構造化データは、複数の手順の構造を把握するためデータであり、例えば、Json形式のデータ、XML形式のデータ、RDF形式のデータ、及びGraphML形式のデータ等が考えられる。本発明は、構造化データのデータ形式に限定されない。実施例1の構造化データは、GraphML形式のデータであるものとする。
以下では、業務プロセスが記述された、1つ以上の文又は1つ以上の文章のまとまりを文書と記載する。また、以下では、文書単位で処理が実行されるものとして説明するが、処理の単位は必ずしも限定されない。
構造化処理装置100は、情報管理部110及び構造化処理部120を有し、また、文書データベース130、構造化ルールデータベース140、処理データベース150、構造化データデータベース160を保持する。
文書データベース130は、処理対象の文書を格納するデータベースである。構造化ルールデータベース140は、構造化処理に用いるルールを格納するデータベースである。処理データベース150は、構造化処理の処理結果を格納するデータベースである。構造化データデータベース160は、構造化処理によって生成された構造化データを格納するデータベースである。
情報管理部110は、文書、ルール、及び構造化データ等を管理する。構造化処理部120は、構造化処理を実行する。尚、情報管理部110及び構造化処理部120は、オペレーティングシステム、ファイルシステム、リレーショナルデータベース及びKVS(Key-Value Store)等のNoSQLを管理するミドルウェア等の一機能として実現してもよい。
構造化処理部120は、構造化処理において、以下のような処理を実行する。
(1)構造化処理部120は、文書に含まれるテキストから、業務プロセスの手順に関連する単語等の表現をエンティティとして抽出し、抽出されたエンティティのカテゴリ(エンティティカテゴリ)を分類する。
(2)構造化処理部120は、一つの手順に関連するエンティティをまとめることによってエンティティグループを生成する。
(3)構造化処理部120は、エンティティグループに含まれるエンティティのエンティティカテゴリに基づいて、エンティティグループに対応する手順のカテゴリ(手順カテゴリ)を分類する。
(4)構造化処理部120は、エンティティグループに含まれるエンティティのうち、エンティティグループに対応する手順の特性を表すエンティティ(主エンティティ)を特定する。
(5)構造化処理部120は、主エンティティ間の関係性に基づいて、業務プロセスに含まれる手順のうち、並列して行われる手順を判定する。
(6)構造化処理部120は、主エンティティ間の関係性、並びに、手続きの順序及び手順カテゴリの間の関係性に基づいて、手順の順序を判定する。
(7)構造化処理部120は、(5)及び(6)の判定結果の整合性を確認し、確認結果を記録する。
(8)構造化処理部120は、(5)及び(6)の判定結果、並びに、整合性の確認結果に基づいて、構造化データを生成する。
(9)構造化処理部120は、構造化データを表示するための表示情報を生成し、ユーザ端末101に表示情報を送信する。
ユーザ端末101は、文書及び各種ルール等を登録するための画面を表示する登録部170、並びに、構造化データの提示及び修正等を行うための画面を表示する表示部180を有する。
尚、複数の計算機200から構成される計算機システムを用いて、構造化処理装置100が有する機能を実現してもよい。また、構造化処理装置100が有する全て又は一部の機能は、仮想化技術を用いて実現してもよい。例えば、SaaS(Software as a Service)、PaaS(Platform as a Service)、及びIaaS(Infrastructure as a Service)等のクラウドサービスを用いて構造化処理装置100が有する全て又は一部の機能を実現する方法が考えられる。
尚、構造化処理装置100及びユーザ端末101は、一つの装置にまとめてもよい。
図3は、実施例1の文書データベース130の一例を示す図である。
文書データベース130は、文書ID301及びテキスト302を含むエントリを格納する。一つの文書に対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
文書ID301は、文書の識別情報を格納するフィールドである。テキスト302は、文書に含まれるテキストを格納するフィールドである。尚、テキスト302に格納されるテキストのデータ形式は限定されない。
図4は、実施例1の構造化ルールデータベース140に格納されるエンティティ/カテゴリ辞書400の一例を示す図である。
エンティティ/カテゴリ辞書400は、エンティティとして抽出する単語等の表現及びエンティティのカテゴリ(種別)を管理するための情報である。エンティティ/カテゴリ辞書400は、エンティティ401及びカテゴリ402を含むエントリを格納する。一つの表現(エンティティ)に対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
エンティティ401は、抽出する表現を格納するフィールドである。カテゴリ402は、表現のエンティティカテゴリを格納するフィールドである。
図5は、実施例1の構造化ルールデータベース140に格納される手順カテゴリ判定ルール情報500の一例を示す図である。
手順カテゴリ判定ルール情報500は、エンティティグループに対応する手順の手順カテゴリの判定ルールを管理するための情報である。手順カテゴリ判定ルール情報500は、ルールID501、カテゴリID502、カテゴリ503、及びルール504を含むエントリを格納する。一つのルールに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
ルールID501は、ルールの識別情報を格納するフィールドである。カテゴリID502は、ルールに合致する手順の手順カテゴリの識別情報を格納するフィールドである。カテゴリ503は、ルールに合致する手順の手順カテゴリを格納するフィールドである。ルール504は、手順カテゴリの判定ルールを格納するフィールドである。
ここで、手順カテゴリは手順の種別である。物質製造に係る業務プロセスでは、「準備」、「操作」、及び「計測」等の手順カテゴリが考えられ、また、保守に係る業務プロセスでは、「報告」、「原因確認」、及び「処置」等の手順カテゴリが考えられる。
手順カテゴリの判定ルールとしては、エンティティグループに含まれるエンティティのエンティティカテゴリを用いるルールが考えられる。例えば、エンティティカテゴリが「物質」であるエンティティを含むエンティティグループの手順カテゴリを「物質」と判定するルールがある。また、エンティティグループに含まれるエンティティのカテゴリの組み合わせに基づいて、手順カテゴリを判定するルールも考えられる。例えば、図24Aの保守に係る業務プロセスにおいては、エンティティカテゴリが「アラーム」及び「現象」であるエンティティを含むエンティティグループの手順カテゴリを「報告」と判定するルールがある。尚、前述したルールは一例であってこれに限定されない。
図5の一番目のエントリには、エンティティグループに含まれる各エントリのエンティティカテゴリを表す変数「entity_categories」に「操作」が含まれている場合、手順カテゴリが「操作」であると判定するルールが定義されている。図5の二番目のエントリには、変数「entity_categories」に「物質」が含まれている場合、手順カテゴリが「物質」であると判定するルールが定義されてる。
図6は、実施例1の構造化ルールデータベース140に格納される主エンティティ判定ルール情報600の一例を示す図である。
主エンティティ判定ルール情報600は、エンティティグループに含まれるエンティティの中から主エンティティを特定するためのルール(主エンティティ判定ルール)を管理するための情報である。主エンティティ判定ルール情報600は、ルールID601及びルール602を含むエントリを格納する。一つのルールに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
ルールID601は、ルールの識別情報を格納するフィールドである。ルール602は、主エンティティ判定ルールを格納するフィールドである。
主エンティティ判定ルールとしては、エンティティカテゴリを用いるルールが考えられる。例えば、エンティティカテゴリが「物質」であるエンティティを主エンティティとして特定するルールである。尚、前述したルールは一例であってこれに限定されない。
図6の一番目のエントリには、エンティティカテゴリを表す変数「entity_category」が「操作」であるエンティティを主エンティティとして特定するルールが定義されている。
尚、構造化ルールデータベース140には、主エンティティを補足する関係にある副エンティティを特定するためのルールを管理するための情報が含まれてもよい。
図7は、実施例1の構造化ルールデータベース140に格納される並列性判定ルール情報700の一例を示す図である。
並列性判定ルール情報700は、二つの手順が並列して行われるか否かを判定するためのルール(並列性判定ルール)を管理するための情報である。並列性判定ルール情報700は、ルールID701、並列性702、及びルール703を含むエントリを格納する。一つのルールに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
ルールID701は、ルールの識別情報を格納するフィールドである。並列性702は、二つの手順が並列して行われるか否かを表す値を格納するフィールドである。ルール703は、並列性判定ルールを格納するフィールドである。
並列性判定ルールとしては、二つのエンティティグループの主エンティティ間を結ぶ文に含まれる語句を用いたルールが考えられる。尚、前述したルールは一例であってこれに限定されない。
図7の一番目のエントリには、主エンティティAと主エンティティBとを結ぶ文に含まれる単語を表す変数「word_between main_entityA_and_main_entityB」に「しかしながら」が含まれている場合、主エンティティAを含むエンティティグループに対応する手順と、主エンティティBを含むエンティティグループに対応する手順とは並列して行われると判定するルールが定義されている。図7の二番目のエントリは、変数「word_between main_entityA_and_main_entityB」に「の後に」が含まれている場合、主エンティティAを含むエンティティグループに対応する手順と、主エンティティBを含むエンティティグループに対応する手順とは並列して行われないと判定するルールが定義されている。
図8は、実施例1の構造化ルールデータベース140に格納される業務プロセス順序判定ルール情報800の一例を示す図である。
業務プロセス順序判定ルール情報800は、手続カテゴリに基づいて、各手順の順序を判定するためのルール(業務プロセス順序判定ルール)を管理するための情報である。業務プロセス順序判定ルール情報800は、ルールID801、順序802、及びルール803を含むエントリを格納する。一つのルールに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
ルールID801は、ルールの識別情報を格納するフィールドである。順序802は、手順の大まかな順序を表す情報を格納するフィールドである。「始点」は業務プロセス全体の始めの手順であることを示し、「中間」は業務プロセス全体の中間の手順であることを示し、「終点」は業務プロセス全体の終わりの手順であることを示す。ルール803は、業務プロセス順序判定ルールを格納するフィールドである。
業務プロセス順序判定ルールとしては、手続カテゴリのみを用いたルールが考えられる。尚、前述の手順パターンの定義方法は一例であってこれに限定されない。例えば、手続きカテゴリ及び主エンティティの位置を用いたルールでもよい。
業務プロセスによっては、所定の順序で手順が並べられた構造化データを生成することが一般的な場合がある。例えば、図24Aに示す保守に係る業務プロセスでは、一般的に、手順が「報告」、「原因確認」、及び「処置」の順番に並べられる。そこで、予め、構造化データにおける手順の順序を定義しておく。
図8の一番目のエントリには、手順カテゴリが「物質」であり、かつ、主エンティティがテキストの前半にある場合、当該手続きは、業務プロセス全体の始めの手順であると判定するルールが定義される。図8の二番目のエントリには、手順カテゴリが「操作」である場合、当該手続きは、業務プロセス全体の中間の手順であると判定するルールが定義される。図8の三番目のエントリには、手順カテゴリが「物質」であり、かつ、主エンティティがテキストの後半にある場合、当該手続きは、業務プロセス全体の後半の手順であると判定するルールが定義される。
図9は、実施例1の構造化ルールデータベース140に格納される手順順序判定ルール情報900の一例を示す図である。
手順順序判定ルール情報900は、主エンティティ間の関係性に基づいて、二つの手順間の順序を判定するためのルール(手順順序判定ルール)を管理するための情報である。手順順序判定ルール情報900は、ルールID901、順序902、及びルール903を含むエントリを格納する。一つのルールに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
ルールID901は、ルールの識別情報を格納するフィールドである。順序902は、エンティティ間の順序関係を格納するフィールドである。ルール903は、手順順序判定ルールを格納するフィールドである。
手順順序判定ルールとしては、主エンティティ間を結ぶ文に含まれる語句を用いたルールが考えられる。また、類義語の関係を有するエンティティに基づいたルールであってもよい。例えば、「3番ディスク」及び「ディスク3」が類義語の関連がある場合、「3番ディスク」を含むエンティティグループと「ディスク3」を含むエンティティグループとを出現順に並べるルールが考えられる。尚、類義語の関係以外に、装置構成状態の関連性(同じ装置中のモジュール内にある)、物質の関連性等と用いてもよい。尚、前述したルールは一例であってこれに限定されない。
図9の一番目のエントリには、主エンティティAと主エンティティBとを結ぶ文に含まれる単語を表す変数「word_between main_entityA_and_main_entityB」に「の後に」が含まれている場合、主エンティティAを含むエンティティグループを、主エンティティBを含むエンティティグループより前に並べるルールが定義されている。図9の二番目のエントリは、変数「word_between main_entityA_and_main_entityB」に「の前に」が含まれている場合、主エンティティBを含むエンティティグループを、主エンティティAを含むエンティティグループより前に並べるルールが定義されている。図9の三番目のエントリには、主エンティティAの直前の単語を表す変数「main_before main_entityA」に「はじめに」が含まれる場合、主エンティティAを含むエンティティグループを業務プロセスの最初に並べるルールが定義されている。図9の四番目のエントリには、主エンティティを表す変数「main_entityA」及び主エンティティBを表す変数「main_entityB」に、特定の関係を示す用語が含まれる場合、主エンティティAを含むエンティティグループを、主エンティティBを含むエンティティグループより前に並べるルールが定義されている。特定の関係は、後述する関係性定義情報1000(図10を参照)に定義されている。
図10は、実施例1の構造化ルールデータベース140に格納される関係性定義情報1000の一例を示す図である。
関係性定義情報1000は、エンティティ間の特定の関係性(例えば、類似関係)を管理するための情報である。関係性定義情報1000は、関係性ID1001、第1エンティティ1002、第2エンティティ1003、及び関係性1004を含むエントリを格納する。一つのエンティティ間の関係性に対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
関係性ID1001は、関係性の識別情報を格納するフィールドである。第1エンティティ1002及び第2エンティティ1003は、エンティティを格納するフィールドである。関係性1004は、第1エンティティ及び第2エンティティの間の関係性を格納するフィールドである。
図11は、実施例1の構造化処理装置100が実行する構造化データ生成処理の概要を説明するフローチャートである。図12、図13、図14、図15、図16、及び図17は、実施例1の構造化処理装置100が生成する情報の一例を示す図である。図18は、実施例1の構造化処理装置100が生成する構造化データの一例を示す図である。図19A及び図19Bは、実施例1のユーザ端末101に表示される構造化データの一例を示す図である。
構造化処理装置100は、実行契機を検出した場合、構造化データ生成処理を開始する。実行契機は、実行指示の受信及び実行タイミングの検出等である。以下の説明では、一つの構造化データの生成対象の文書の識別情報を含む実行指示を受信した場合の処理を一例として説明する。
構造化処理部120は、文書データベース130から指定された文書のテキストを取得し、テキスト及びエンティティ/カテゴリ辞書400を用いてエンティティ抽出処理を実行する(ステップS1100)。構造化処理部120は、抽出したエンティティの情報を、エンティティ情報1200として処理データベース150に格納する。
エンティティ情報1200は、エンティティID1201、エンティティ1202、位置1203、及びカテゴリ1204を含むエントリを格納する。一つのエンティティに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
エンティティID1201は、構造化処理部120によって付与されたエンティティの識別情報を格納するフィールドである。エンティティ1202は、エンティティとして抽出された表現を格納するフィールドである。位置1203は、テキストにおけるエンティティの位置を格納するフィールドである。カテゴリ1204は、エンティティカテゴリを格納するフィールドである。
エンティティ抽出処理では、構造化処理部120は、エンティティ/カテゴリ辞書400に基づいてエンティティを抽出し、抽出結果に基づいてエンティティ情報1200を生成する。尚、エンティティの抽出方法は、ルールベースの方法に限定されない。機械学習等、既存の固有表現抽出技術を用いることができる。
次に、構造化処理部120は、抽出されたエンティティ及びテキストを用いて、エンティティグループ生成処理を実行する(ステップS1200)。具体的には、以下のような処理が実行される。
(S1200-1)構造化処理部120は、テキストに対して文書構造の解析処理を実行し、エンティティの係り受けに関する情報を取得する。構造化処理部120は、エンティティの係り受けに関する情報に基づいて、対応関係を有するエンティティのペアを生成する。尚、エンティティのペアは、エンティティの対応関係を学習したモデルを用いて生成してもよい。構造化処理部120は、生成したペアの情報をエンティティペア情報1300として処理データベース150に格納する。
エンティティペア情報1300は、ペアID1301、エンティティID1302、及びエンティティID1303を含むエントリを格納する。一つのエンティティのペアに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
ペアID1301は、エンティティのペアの識別情報を格納するフィールドである。エンティティID1302及びエンティティID1303は、ペアを構成するエンティティの識別情報を格納するフィールドである。
(S1200-2)構造化処理部120は、エンティティペア情報1300を参照し、対応関係によって結びついているエンティティをグルーピングすることによって、エンティティグループを生成する。構造化処理部120は、生成したエンティティグループの情報を、エンティティグループ情報1400として処理データベース150に格納する。
エンティティグループ情報1400は、エンティティグループID1401、エンティティリスト1402、カテゴリ1403、及び主エンティティID1404を含むエントリを格納する。一つのエンティティグループに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
エンティティグループID1401は、エンティティグループの識別情報を格納するフィールドである。エンティティリスト1402は、エンティティグループを構成するエンティティの識別情報のリストを格納するフィールドである。カテゴリ1403は、手順カテゴリを格納するフィールドである。主エンティティID1404は、エンティティグループの主エンティティの識別情報を格納するフィールドである。尚、この時点では、各エントリのカテゴリ1403及び主エンティティID1404は空欄である。
以上がエンティティグループ生成処理の説明である。
次に、構造化処理部120は、手順カテゴリ判定ルール情報500を用いて、手順カテゴリ判定処理を実行する(ステップS1300)。手順カテゴリ判定処理の詳細は図20を用いて説明する。手順カテゴリ判定処理の結果は、エンティティグループ情報1400の各エントリのカテゴリ1403に反映される。
次に、構造化処理部120は、主エンティティ判定ルール情報600を用いて、主エンティティ判定処理を実行する(ステップS1400)。主エンティティ判定処理の詳細は図21を用いて説明する。主エンティティ判定処理の結果は、エンティティグループ情報1400の各エントリの主エンティティID1404に反映される。
次に、構造化処理部120は、並列性判定ルール情報700を用いて、並列性判定処理を実行する(ステップS1500)。並列性判定処理の詳細は図22を用いて説明する。並列性判定処理の結果は、並列性情報1500として処理データベース150に格納される。
並列性情報1500は、エンティティ族ID1501及びエンティティグループリスト1502を含むエントリを格納する。並列して行われるエンティティグループのグループに対して一つのエントリが存在する。以下の説明では、並列して行われるエンティティグループのグループをエンティティ族と記載する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
エンティティ族ID1501は、エンティティ族の識別情報を格納するフィールドである。エンティティグループリスト1502は、エンティティ族を構成するエンティティグループの識別情報を格納するフィールドである。
次に、構造化処理部120は、業務プロセス順序判定ルール情報800、手順順序判定ルール情報900、及び関係性定義情報1000を用いて、手順順序判定処理を実行する(ステップS1600)。手順順序判定処理の詳細は図23を用いて説明する。手順順序判定処理の結果は、手順順序情報1600として処理データベース150に格納される。
手順順序情報1600は、順序ペアID1601、エンティティグループID(前)1602、及びエンティティグループID(後)1603を含むエントリを格納する。順序関係を定義する手順に対応するエンティティグループのペアに対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
実施例1では手順の順序は、GraphML形式におけるノード(エンティティグループ)間を接続するエッジの方向として表現される。尚、手順の順序の表現方法に限定されない。
順序ペアID1601は、順序関係を定義するエンティティグループのペアの識別情報を格納するフィールドである。エンティティグループID(前)1602は、前端のエンティティグループの識別情報を格納するフィールドである。エンティティグループID(後)1603は、後端のエンティティグループの識別情報を格納するフィールドである。
次に、構造化処理部120は、並列性判定ルール情報700、業務プロセス順序判定ルール情報800、手順順序判定ルール情報900、及び関係性定義情報1000を用いて、整合性確認処理を実行する(ステップS1700)。尚、整合性確認処理は実行されなくてもよい。
具体的には、構造化処理部120は、エンティティ情報1200、並列性情報1500、及び手順順序情報1600に登録されている情報が、並列性判定ルール情報700、業務プロセス順序判定ルール情報800、手順順序判定ルール情報900、及び関係性定義情報1000を用いて定義されるルールに整合しているか否かを判定する。整合していない情報が存在する場合、構造化処理部120は、当該情報を整合性確認情報1700として処理データベース150に格納する。
整合性確認情報1700は、確認ID1701、対象1702、及びルールID1703を含むエントリを格納する。一つの違反に対して一つのエントリが存在する。尚、エントリに含まれるフィールドは一例であってこれに限定されない。
確認ID1701は、エントリの識別情報を格納するフィールドである。対象1702は、違反の対象を表す識別情報を格納するフィールドである。対象1702には、例えば、順序ペア及びエンティティ族の識別情報が格納される。ルールID1703は、対象が違反しているルールの識別情報を格納するフィールドである。
次に、構造化処理部120は、エンティティ情報1200、エンティティペア情報1300、エンティティグループ情報1400、並列性情報1500、手順順序情報1600、及び整合性確認情報1700を用いて構造化データ出力処理を実行する(ステップS1800)。具体的には、構造化処理部120は、エンティティグループをノードとするグラフを表すデータを構造化データとして生成し、構造化データデータベース160に生成した構造化データを格納する。構造化データは、例えば、図18のようなGraphML形式のデータである。尚、並列して実行される手順に対応するエンティティグループは一つのノードにまとめてもよい。
図18に示す構造化データは、グラフのノード(エンティティグループ)を定義するエントリ、エンティティグループの主エンティティを定義するエントリ、及びノード間の接続関係を定義するエントリ等を含む。
ユーザ端末101の表示部180は、構造化データを用いて、図19A及び図19Bに示すような画面を表示する。点線のボックスはエンティティグループを表す。エンティティグループには手順カテゴリを表すアイコンが表示される。エンティティを表すボックスには、エンティティカテゴリ及び主エンティティを表すアイコンが表示される。尚、一点鎖線のボックスは、並列して実行される手順(エンティティグループ)を一つにまとめたものである。
構造化処理部120は、エンティティグループ間の単純な順序だけではなく、エンティティグループの並列性も判定し、構造化データを生成する。これによって、並列して行われる手順を含む業務プロセスを精度よく構造化できる。また、構造化処理部120は、主エンティティに基づくルール及び手順カテゴリに基づくルールを用いて、手順の順序を判定する。このように、少ないルールを用いて精度よく業務プロセスを構造化することができる。尚、手順カテゴリに基づくルールは必ずしも必要ではない。
図20は、実施例1の構造化処理装置100が実行する手順カテゴリ判定処理の一例を説明するフローチャートである。
構造化処理部120は、エンティティグループを選択する(ステップS1301)。具体的には、構造化処理部120は、エンティティグループ情報1400から一つのエントリを選択する。
構造化処理部120は、エンティティグループに含まれる各エンティティの情報を取得する(ステップS1302)。具体的には、構造化処理部120は、エントリのエンティティリスト1402に登録されている識別情報に基づいて、エンティティ情報1200からエンティティカテゴリを取得する。
構造化処理部120は、エンティティグループに含まれる各エンティティのエンティティカテゴリ及び手順カテゴリ判定ルール情報500に基づいて、手順カテゴリを特定する(ステップS1303)。具体的には、構造化処理部120は、各エントリのルール504に設定されるルールについて判定を行い、合致したルールに対応するエントリのカテゴリ503の値を取得する。
構造化処理部120は、エンティティグループ情報1400を更新する(ステップS1304)。具体的には、構造化処理部120は、ステップS1301において選択されたエントリのカテゴリ1403に、特定された手順カテゴリを設定する。
構造化処理部120は、エンティティグループ情報1400の全てのエントリについて処理が完了したか否かを判定する(ステップS1305)。
エンティティグループ情報1400の全てのエントリについて処理が完了していない場合、構造化処理部120はS1301に戻る。エンティティグループ情報1400の全てのエントリについて処理が完了した場合、構造化処理部120は手順カテゴリ判定処理を終了する。
図21は、実施例1の構造化処理装置100が実行する主エンティティ判定処理の一例を説明するフローチャートである。
構造化処理部120は、エンティティグループを選択する(ステップS1401)。具体的には、構造化処理部120は、エンティティグループ情報1400から一つのエントリを選択する。
構造化処理部120は、エンティティグループに含まれる各エンティティの情報を取得する(ステップS1402)。具体的には、構造化処理部120は、エントリのエンティティリスト1402に登録されている識別情報に基づいて、エンティティ情報1200からエンティティカテゴリを取得する。
構造化処理部120は、エンティティグループに含まれる各エンティティのエンティティカテゴリ及び主エンティティ判定ルール情報600に基づいて、主エンティティとなるエンティティを特定する(ステップS1403)。具体的には、構造化処理部120は、各エントリのルール602に設定されるルールについて判定を行い、ルールに合致するエンティティを特定する。
構造化処理部120は、エンティティグループ情報1400を更新する(ステップS1404)。具体的には、構造化処理部120は、ステップS1401において選択されたエントリの主エンティティID1404に、主エンティティとして特定されたエンティティの識別情報を設定する。
構造化処理部120は、エンティティグループ情報1400の全てのエントリについて処理が完了したか否かを判定する(ステップS1405)。
エンティティグループ情報1400の全てのエントリについて処理が完了していない場合、構造化処理部120はステップS1401に戻る。エンティティグループ情報1400の全てのエントリについて処理が完了した場合、構造化処理部120は主エンティティ判定処理を終了する。
図22は、実施例1の構造化処理装置100が実行する並列性判定処理の一例を説明するフローチャートである。
構造化処理部120は、エンティティグループのペアを生成する(ステップS1501)。例えば、エンティティグループの主エンティティの位置が近いエンティティグループのペアを生成する方法が考えられる。本発明は、エンティティグループのペアの生成方法に限定されない。
構造化処理部120は、エンティティグループのペアを選択する(ステップS1502)。
構造化処理部120は、テキスト及びペアを構成するエンティティグループの主エンティティ、並びに、並列性判定ルール情報700に基づいて、ペアを構成するエンティティグループに対応する二つの手続きが並列して行われるか否かを判定する(ステップS1503)。例えば、一つのエンティティグループの主エンティティと、他のエンティティグループの主エンティティとを結ぶ文に含まれる単語に基づいて判定が行われる。
二つの手続きが並列して行われない場合、構造化処理部120はステップS1505に進む。
二つの手続きが並列して行われる場合、構造化処理部120は、並列して実行されることを示すフラグをペアに付与し(ステップS1504)、その後、ステップS1505に進む。
ステップS1505では、構造化処理部120は、全てのエンティティグループのペアについて処理が完了したか否かを判定する(ステップS1505)。
全てのエンティティグループのペアについて処理が完了していない場合、構造化処理部120はステップS1502に戻る。
全てのエンティティグループのペアについて処理が完了した場合、構造化処理部120は、フラグが付与されているペアの情報に基づいて、エンティティ族を生成する(ステップS1506)。具体的には、構造化処理部120は、同じエンティティグループを含むペアをマージすることによってエンティティ族を生成する。
構造化処理部120は、エンティティ族に関する情報を並列性情報1500として生成し(ステップS1507)、処理データベース150に格納する。
図23は、実施例1の構造化処理装置100が実行する手順順序判定処理の一例を説明するフローチャートである。
構造化処理部120は、業務プロセス順序判定ルール情報800に基づいて、各手順の順序を決定し(ステップS1601)、処理結果に基づいて手順順序情報1600を生成する(ステップS1602)。具体的には、構造化処理部120は、業務プロセス順序判定ルール情報800に基づいて、大まかな手順の順序を決定する。また、構造化処理部120は、エンティティグループに含まれる主エンティティの位置等に基づいて、各手順の順序を決定する。
構造化処理部120は、エンティティグループのペアを生成する(ステップS1603)。例えば、エンティティグループの主エンティティの位置が近いエンティティグループのペアを生成する方法が考えられる。本発明は、エンティティグループのペアの生成方法に限定されない。
構造化処理部120は、エンティティグループのペアを選択する(ステップS1604)。
構造化処理部120は、手順順序判定ルール情報900及び関係性定義情報1000を参照し、エンティティグループのペアに合致するルールが存在するか否かを判定する(ステップS1605)。
エンティティグループのペアに合致するルールが存在しない場合、構造化処理部120はステップS1607に進む。
エンティティグループのペアに合致するルールが存在する場合、構造化処理部120は、該当するルールに対応するエントリの順序902に基づいて、ペアを構成する二つのエンティティグループに対応する手順間の順序を決定し(ステップS1606)、その後、ステップS1607に進む。
ステップS1607では、全てのエンティティグループのペアについて処理が完了したか否かを判定する(ステップS1607)。
全てのエンティティグループのペアについて処理が完了していない場合、構造化処理部120はステップS1604に戻る。
全てのエンティティグループのペアについて処理が完了した場合、構造化処理部120は、エンティティグループのペアの判定結果に基づいて、手順の順序を決定する(ステップS1608)。
構造化処理部120は、ステップS1608の処理結果に基づいて、手順順序情報1600を更新する(ステップS1609)。
尚、構造化処理装置100は、業務プロセス順序判定ルール情報800を保持していなくてもよい。この場合、業務プロセス順序判定ルール情報800を用いた手順の順序の判定は行わないため、手順カテゴリ判定処理を省略することができる。構造化処理装置100は、手順順序判定ルール情報900及び関係性定義情報1000に基づいて、手順の順序を決定すればよい。
以上で説明したように、実施例1の構造化処理装置100は、業務プロセスが記載された文書から、精度よく構造化データを生成することができる。手順の順序を判定するためのルールは、主エンティティ間の関係性に基づくルール、並びに、手順の順序及び手順カテゴリ間の関係性に基づくルールのみであるため、ルールの設定に要するコストを抑えることができる。
尚、手順カテゴリ及び主エンティティの判定はルールを用いなくてもよい。例えば、学習処理によって生成されたモデルを用いて判定する方法でもよい。
尚、手順の順序の判定はルールを用いなくてもよい。例えば、主エンティティ間の単語を用いた学習処理によって生成されたモデルと、手順の順序及び手順カテゴリの関係性を示すデータを用いた学習処理によって生成されたモデルとを用いて判定する方法でもよい。また、ルールとモデルとを組み合わせて判定する方法でもよい。
尚、副エンティティを用いるルールを設定してもよい。
尚、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Python、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。
10 構造化システム
100 構造化処理装置
101 ユーザ端末
102 通信ネットワーク
110 情報管理部
120 構造化処理部
130 文書データベース
140 構造化ルールデータベース
150 処理データベース
160 構造化データデータベース
170 登録部
180 表示部
200 計算機
201 演算装置
202 主記憶装置
203 補助記憶装置
204 入力装置
205 出力装置
206 通信装置
400 エンティティ/カテゴリ辞書
500 手順カテゴリ判定ルール情報
600 主エンティティ判定ルール情報
700 並列性判定ルール情報
800 業務プロセス順序判定ルール情報
900 手順順序判定ルール情報
1000 関係性定義情報
1200 エンティティ情報
1300 エンティティペア情報
1400 エンティティグループ情報
1500 並列性情報
1600 手順順序情報
1700 整合性確認情報

Claims (12)

  1. 少なくとも一つの計算機を備える計算機システムであって、
    複数の手順からなる業務プロセスが記載された文書の入力を受け付け、
    前記文書から、前記業務プロセスに関連する表現をエンティティとして抽出し、
    前記エンティティのカテゴリを分類し、
    一つ以上の前記エンティティから構成され、一つの前記手順に対応するエンティティグループを複数生成し、
    前記エンティティグループの各々について、前記エンティティグループに含まれる一つ以上の前記エンティティのカテゴリに基づいて、前記エンティティグループに対応する前記手順を特徴づける前記エンティティである主エンティティを特定し、
    前記主エンティティ間の関係性に基づいて、前記複数の手順の順序を判定する第1順序判定処理を実行し、
    前記第1順序判定処理の結果に基づいて、前記複数の手順の順序を決定し、
    前記業務プロセスの構造化データとして、順序づけされた前記エンティティグループに関する情報を生成し、出力することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記主エンティティ間の関係性に基づいて、並列して実行される前記手順を特定する並列性判定処理を実行し、
    前記第1順序判定処理の結果及び前記並列性判定処理の結果に基づいて、前記複数の手順の順序を決定することを特徴とする計算機システム。
  3. 請求項2に記載の計算機システムであって、
    前記第1順序判定処理では、前記主エンティティ間を結ぶ文に含まれる文字列及び前記主エンティティ間の類似性の少なくともいずれかに基づいて、二つの前記手順間の順序が判定され、
    前記並列性判定処理では、前記主エンティティ間を結ぶ文に含まれる文字列に基づいて、並列して実行される前記手順が特定されることを特徴とする計算機システム。
  4. 請求項3に記載の計算機システムであって、
    前記エンティティ間を結ぶ文に含まれる文字列、及び、前記エンティティ間の類似性の少なくともいずれかに基づいて、二つの前記手順間の順序を判定するためのルールを管理するための情報と、
    前記主エンティティ間を結ぶ文に含まれる文字列に基づいて、並列して実行される手順であるか否かを判定するためのルールを管理するための情報と、を保持することを特徴とする計算機システム。
  5. 請求項1に記載の計算機システムであって、
    前記エンティティグループの各々について、前記エンティティグループに含まれる一つ以上の前記エンティティのカテゴリに基づいて、前記エンティティグループに対応する前記手順のカテゴリを分類し、
    前記手順の順序及び前記手順のカテゴリの間の関係性に基づいて、前記複数の手順の順序を判定する第2順序判定処理を実行し、
    前記第1順序判定処理及び前記第2順序判定処理に基づいて、前記複数の手順の順序を決定することを特徴とする計算機システム。
  6. 請求項5に記載の計算機システムであって、
    前記業務プロセスにおける前記手順のカテゴリの出現順序を定義したルールを管理するための情報を保持することを特徴とする計算機システム。
  7. 少なくとも一つの計算機を含む計算機システムが実行する、複数の手順からなる業務プロセスを表す構造化データの生成方法であって、
    前記少なくとも一つの計算機が、前記業務プロセスが記載された文書の入力を受け付ける第1のステップと、
    前記少なくとも一つの計算機が、前記文書から、前記業務プロセスに関連する表現をエンティティとして抽出する第2のステップと、
    前記少なくとも一つの計算機が、前記エンティティのカテゴリを分類する第3のステップと、
    前記少なくとも一つの計算機が、一つ以上の前記エンティティから構成され、一つの前記手順に対応するエンティティグループを複数生成する第4のステップと、
    前記少なくとも一つの計算機が、前記エンティティグループの各々について、前記エンティティグループに含まれる一つ以上の前記エンティティのカテゴリに基づいて、前記エンティティグループに対応する前記手順を特徴づける前記エンティティである主エンティティを特定する第5のステップと、
    前記少なくとも一つの計算機が、前記主エンティティ間の関係性に基づいて、前記複数の手順の順序を判定する第1順序判定処理を実行する第6のステップと、
    前記少なくとも一つの計算機が、前記第1順序判定処理の結果に基づいて、前記複数の手順の順序を決定する第7のステップと、
    前記少なくとも一つの計算機が、前記業務プロセスの構造化データとして、順序づけされた前記エンティティグループに関する情報を生成し、出力する第8のステップと、を含むことを特徴とする業務プロセスを表す構造化データの生成方法。
  8. 請求項7に記載の業務プロセスを表す構造化データの生成方法であって、
    前記少なくとも一つの計算機が、前記主エンティティ間の関係性に基づいて、並列して実行される前記手順を特定する並列性判定処理を実行する第9のステップを含み、
    前記第7のステップは、前記少なくとも一つの計算機が、前記第1順序判定処理の結果及び前記並列性判定処理の結果に基づいて、前記複数の手順の順序を決定するステップを含むことを特徴とする業務プロセスを表す構造化データの生成方法。
  9. 請求項8に記載の業務プロセスを表す構造化データの生成方法であって、
    前記第1順序判定処理では、前記主エンティティ間を結ぶ文に含まれる文字列及び前記主エンティティ間の類似性の少なくともいずれかに基づいて、二つの前記手順間の順序が判定され、
    前記並列性判定処理では、前記主エンティティ間を結ぶ文に含まれる文字列に基づいて、並列して実行される前記手順が特定されることを特徴とする業務プロセスを表す構造化データの生成方法。
  10. 請求項9に記載の業務プロセスを表す構造化データの生成方法であって、
    前記計算機システムは、
    前記エンティティ間を結ぶ文に含まれる文字列、及び、前記エンティティ間の類似性の少なくともいずれかに基づいて、二つの前記手順間の順序を判定するためのルールを管理するための情報と、
    前記主エンティティ間を結ぶ文に含まれる文字列に基づいて、並列して実行される手順であるか否かを判定するためのルールを管理するための情報と、
    を保持することを特徴とする業務プロセスを表す構造化データの生成方法。
  11. 請求項7に記載の業務プロセスを表す構造化データの生成方法であって、
    前記少なくとも一つの計算機が、前記エンティティグループの各々について、前記エンティティグループに含まれる一つ以上の前記エンティティのカテゴリに基づいて、前記エンティティグループに対応する前記手順のカテゴリを分類する第10のステップと、
    前記少なくとも一つの計算機が、前記手順の順序及び前記手順のカテゴリの間の関係性に基づいて、前記複数の手順の順序を判定する第2順序判定処理を実行する第11のステップと、を含み、
    前記第7のステップは、前記少なくとも一つの計算機が、前記第1順序判定処理及び前記第2順序判定処理に基づいて、前記複数の手順の順序を決定するステップを含むことを特徴とする業務プロセスを表す構造化データの生成方法。
  12. 請求項11に記載の業務プロセスを表す構造化データの生成方法であって、
    前記計算機システムは、前記業務プロセスにおける前記手順のカテゴリの出現順序を定義したルールを管理するための情報を保持することを特徴とする業務プロセスを表す構造化データの生成方法。
JP2022126821A 2022-08-09 2022-08-09 計算機システム及び業務プロセスを表す構造化データの生成方法 Pending JP2024024178A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022126821A JP2024024178A (ja) 2022-08-09 2022-08-09 計算機システム及び業務プロセスを表す構造化データの生成方法
PCT/JP2023/014180 WO2024034179A1 (ja) 2022-08-09 2023-04-06 計算機システム及び業務プロセスを表す構造化データの生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022126821A JP2024024178A (ja) 2022-08-09 2022-08-09 計算機システム及び業務プロセスを表す構造化データの生成方法

Publications (1)

Publication Number Publication Date
JP2024024178A true JP2024024178A (ja) 2024-02-22

Family

ID=89851439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022126821A Pending JP2024024178A (ja) 2022-08-09 2022-08-09 計算機システム及び業務プロセスを表す構造化データの生成方法

Country Status (2)

Country Link
JP (1) JP2024024178A (ja)
WO (1) WO2024034179A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000089809A (ja) * 1998-09-10 2000-03-31 Fujitsu Ltd 工程計画支援システム及びそのシステムでの処理をコンピュータに行わせるためのプログラムを格納した記録媒体及びそのシステムによる工程計画方法
JP2016015026A (ja) * 2014-07-02 2016-01-28 富士通株式会社 作業対象確定プログラム、作業対象確定装置及び作業対象確定方法
JP2021149557A (ja) * 2020-03-19 2021-09-27 富士通株式会社 スケジューリングプログラム、スケジューリング装置およびスケジューリング方法

Also Published As

Publication number Publication date
WO2024034179A1 (ja) 2024-02-15

Similar Documents

Publication Publication Date Title
US8990128B2 (en) Graph-based framework for multi-task multi-view learning
US10885452B1 (en) Relation graph optimization using inconsistent cycle detection
US10896036B2 (en) Auto mapping recommender
US10606450B2 (en) Method and system for visual requirements and component reuse driven rapid application composition
US11537797B2 (en) Hierarchical entity recognition and semantic modeling framework for information extraction
CN110651332A (zh) 生成医疗记录问题列表
US11797530B1 (en) Artificial intelligence system for translation-less similarity analysis in multi-language contexts
US10423416B2 (en) Automatic creation of macro-services
US10255046B2 (en) Source code analysis and adjustment system
US8234570B2 (en) Harvesting assets for packaged software application configuration
CN111552690A (zh) 数据生成方法、装置、终端及存储介质
US8996357B2 (en) Method for generating diagrams, and information processing apparatus for same
CN114175018A (zh) 新词分类技术
US20210216719A1 (en) Machine-learning based processing and reporting of proposal data
WO2024034179A1 (ja) 計算機システム及び業務プロセスを表す構造化データの生成方法
US10853558B2 (en) Transforming digital text content using expressions
JP7275591B2 (ja) 評価支援プログラム、評価支援方法および情報処理装置
US10846061B2 (en) Development environment for real-time application development
KR20210099661A (ko) 주석이 달린 자연어 구문들을 생성하는 방법 및 장치
US20230317215A1 (en) Machine learning driven automated design of clinical studies and assessment of pharmaceuticals and medical devices
US20230057706A1 (en) System and method for use of text analytics to transform, analyze, and visualize data
US8965750B2 (en) Acquiring accurate machine translation
US11475485B2 (en) Automated curation of digital information and user interface for same
WO2024127837A1 (ja) 複数の手順を表す文書についての構造化データを生成する装置及び方法
Kaufmann et al. Data Analytics for Organisational Development: Unleashing the Potential of Your Data