JP6853474B2 - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP6853474B2
JP6853474B2 JP2016193590A JP2016193590A JP6853474B2 JP 6853474 B2 JP6853474 B2 JP 6853474B2 JP 2016193590 A JP2016193590 A JP 2016193590A JP 2016193590 A JP2016193590 A JP 2016193590A JP 6853474 B2 JP6853474 B2 JP 6853474B2
Authority
JP
Japan
Prior art keywords
parent
child relationship
information processing
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016193590A
Other languages
English (en)
Other versions
JP2018055576A5 (ja
JP2018055576A (ja
Inventor
増田 和紀
和紀 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2016193590A priority Critical patent/JP6853474B2/ja
Publication of JP2018055576A publication Critical patent/JP2018055576A/ja
Publication of JP2018055576A5 publication Critical patent/JP2018055576A5/ja
Application granted granted Critical
Publication of JP6853474B2 publication Critical patent/JP6853474B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、文書の分析処理において文書から情報を抽出するための分析技術及び異なる書式で記述された情報の比較技術に関するものであり、特に電子化された表データに関し、テーブルへ登録された情報と表に記載された情報との整合性を検証する技術及びその管理技術に関する。
様々な組織で日々膨大な量の文書が作成されており、これらの文書の内容が正しいかどうかの検証作業について、多くの人的コストをかけて実施しているのが現状である。
例えば、実験データや統計処理されたデータを表として記載し、その説明文を記述する場合、表の項目名等が、標準化されている用語等と食い違いがないかどうか等を目視で検査を行っている現状がある。
特に申請文書のような文書に関しては、高度で且つ精密な検証作業が求められており、このような検証作業を効率的に実施したり、人的コストを削減したりすることは重要な課題である。
一方で、ウェブにある大量の文書から必要な知識を獲得しようとする技術もある。例えば、非特許文献1では、ウェブ上にあるHTML形式の表を解析して知識を獲得し、ユーザが自然文で質問できる質問応答システムに応用しようとする研究報告について記載されている。
P. Pasupat, P. Liang: "Compositional Semantic Parsing on Semi-Structured Tables", Association for Computational Linguistics, 2015.
しかしながら、この研究報告では簡単な表を用いて説明しているが、実際には、例えば、大きな表が複数に分割されたり、あるいは形式の指定がないため作成者によって自由な形式で記述されたり等、表として記載する項目が複雑であればあるほど、その解析が困難になる。
また、前述したように、申請文書には、表が掲載されることも多く、この表の各項目に対して適切な記載がなされているか否かを検証する必要性があるが、非特許文献1に記載の技術では、解析対象となる表に関して記載すべき項目が適切な記載となっているか否かを検証することにまでは、記載や示唆はされていない。
本発明は、の記載内容が適切な内容であるか否かを容易に検証することが可能な情報処理装置、制御方法、及びプログラムを提供することを目的とする。
上記目的を達成するための本発明は、表の分析処理を行う情報処理装置であって、前記表を構成する項目に関する情報及び当該表のバージョンに係る情報取得する取得手段と、項目間の関係に関する情報バージョンに係る情報とを対応して記憶する記憶手段と、前記取得手段によって取得す項目間の関係が、取得したバージョンに係る情報に対応する前記記憶手段に記憶された項目間の関係に関する情報に存在するか否かを判定する判定手段と、を備えたことを特徴とする。
本発明によれば、の記載内容が適切な内容であるか否かを容易に検証することができる、といった効果を奏する。
文書分析装置の構成例を示す構成図である。 文書分析装置のハードウェアの構成を示す構成図である。 文書分析処理を示すフローチャートである。 表抽出処理を示すフローチャートである。 表解析の処理を示すフローチャートである。 行解析の処理を示すフローチャートである。 セル解析の処理を示すフローチャートである。 分析対象とする表の一例を示す図である。 表項目リストの構成を示す構成図である。 表・MedDRA検証の処理を示すフローチャートである。 表記に対して形態素解析を行った例を示す図である。 表記の整合性チェックの処理を示すフローチャートである。 MedDRAの階層構造を表す図である。 MedDRAが変更された例を説明するための図である。 表記誤り一覧画面の構成を示す構成図である。
以下、図面を参照して本発明の実施の形態の一例について説明する。
図1は、本発明の実施形態における文書分析装置(情報処理装置)の構成を示す図である。
文書分析装置100は、解析部101と、解析データ102と、照合部103と、照合データ104と、表示部105と、を備える。なお、解析データ102及び照合データ104は後述する外部メモリ211等の記憶装置に記憶されている。
文書分析装置100は、テキスト文書106が解析部101に入力されて解析がなされると表データが抽出されて解析データ102に記憶されるとともに、解析部101が標準化された用語等の情報を記憶するMedDRAテーブル107からDBデータを抽出して解析データ102に記憶する。
そして、照合部103は、解析部101における解析結果を受けて、解析データ102から表データ及びDBデータを取り出して照合処理を実施し、照合データ104に照合結果を記録する。
表示部105は、照合データ104から照合結果を取り出し、解析データ102に記録された解析結果と合わせて利用者に照合結果を表示する。これら一連の文書分析手法については、詳しく後述する。
次に、図1の文書分析装置100のハードウェア構成について、図2を用いて説明する。
図中、CPU201は、システムバス204に接続される後述の各デバイスやコントローラを統括的に制御する。
また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やオペレーティングシステムプログラム(以下、OS)や、文書分析装置100に後述する各種の処理を実行させるために必要な各種プログラムやデータ等が記憶されている。RAM202は、CPU201の主メモリ、ワークエリア等として機能する。
CPU201は、処理の実行に際して必要なプログラム等をRAM202にロードして、プログラムを実行することで後述する各種処理を実現するものである。
また、入力コントローラ(入力C)205は、入力装置209からの入力を制御する。入力装置209は、例えばメカニカルキーボードやソフトウェアキーボード、タッチパネル等で構成される。
ビデオコントローラ(VC)206は、表示装置210への表示を制御する。表示装置210は、例えば液晶ディスプレイ等で構成される。
メモリコントローラ(MC)207は、ブートプログラム、ブラウザソフトウエア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク(HD)やソリッドステートディスク(SSD)或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュメモリ等の外部メモリ211へのアクセスを制御する。
通信I/Fコントローラ(通信I/FC)208は、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いたインターネット通信等が可能である。
なお、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、表示装置210上での表示を可能としている。
以上が、文書分析装置100のハードウェア構成の説明であるが、後述する各種の処理を実行可能であれば、必ずしも図2に記載のハードウェア構成を有していなくとも構わないことは言うまでもない。
次に、文書分析装置100における文書分析処理について、詳しく説明する。
図3は、文書分析処理のフローチャートを示す図である。文書分析処理では、何らかの論理的構造を持つ文書ファイルを分析対象としており、例えばOpenXMLで記述された文書である。
まず、ステップS301では、ページ番号を初期化する。ページ番号は後述するページ情報の管理属性のひとつとして利用する。
続くステップS302で表抽出処理を行う。処理の詳細な流れについては、図4のフローチャートに示す。
図4に表抽出処理のフローチャートを示す。表抽出処理では、文書ファイルから表部分を取り出す処理となる。
ステップS401において、分析対象の文書から本文を構成する要素を保持している本文要素を指定する。具体的には、例えばOpenXMLの場合、「<w:body>」タグを指定する。
本文要素は複数の子要素から構成されているので、ステップS402からステップS407において、本文要素に含まれるすべての子要素を検査して表を取り出す。
ステップS403において、当該子要素が表属性を持つかを検査する。具体的には、例えばOpenXMLの場合、「<w:tbl>」タグであるかを検査する。
表属性を持つ場合(ステップS403において「Y」のとき)、ステップS404に進み、表解析を実施する。表解析については図5に示すフローチャートを用いて後述する。
表属性を持たない場合(ステップS403において「N」のとき)、ステップS407に進み、次の子要素について抽出処理を実施する。すべての子要素を検査すると、表抽出処理を終了する。
ステップS404における表解析について説明する。図5に表解析のフローチャートを示す。
ステップS501において、行番号の初期化を行う。続くステップS502からステップS506において、すべての行に含まれる子要素の解析処理を実施する。
ステップS503に進み、取得した子要素が行を表す要素かどうかを検査する。具体的には、例えばOpenXMLの場合、「<w:tr>」タグであるかを検査する。
行要素でない場合(ステップS503で「いいえ」の場合)ステップS505に進む。行要素である場合(ステップS503で「はい」の場合)、ステップS504に進み、行解析処理を実施する。
図6に行解析処理のフローチャートを示す。行解析処理は、行要素に含まれるセル要素の解析処理を実施する。
まず、ステップS601において列番号を初期化する。続くステップS602からステップS606において、行に含まれるすべての子要素の解析処理を実施する。
ステップS603に進み、抽出した子要素がセル要素かどうかを検査する。具体的には、例えばOpenXMLの場合、「<w:tc>」タグであるかを検査する。
セル要素でない場合(ステップS603で「いいえ」の場合)、ステップS605に進む。セル要素である場合(ステップS603で「はい」の場合)、ステップS604に進み、セル解析処理を実施する。
図7にセル解析処理のフローチャートを示す。セル解析処理は、セル要素に含まれる子要素の解析処理を実施する。
まず、ステップS701において文字列を初期化する。この文字列は表のセルに含まれる文字列を登録するためのものである。
続くステップS702からステップS713にかけて、すべての子要素について解析処理を実施する。
ステップS703に進み、抽出した子要素が文章要素であるかどうかを検査する。具体的には、例えばOpenXMLの場合、「<w:t>」タグであるかを検査する。
文章要素でない場合(ステップS703で「N」の場合)、ステップS707に進む。文章要素である場合(ステップS703で「Y」の場合)、ステップS704に進む。
ステップS704では、当該セルにおいて字下げがなされているかどうかを検査する。字下げの判定基準としては、字下げタグを持つ或いは字下げ要素を持つ(具体的には、例えばOpenXMLの場合、「<w:ind>」タグを持つ)或いは文字列の先頭にタブ文字や空白文字等が挿入されている等で判断する。
字下げされている場合(ステップS704で「Y」の場合)、ステップS705に進み、字下げ属性を当該セル情報に設定する。字下げされていない場合(ステップS704で「N」の場合)、ステップS705をスキップしてステップS706に進む。
ステップS706ではステップS701で初期化した文字列の登録先に当該セルが持つ文字列を追加する。文字列は追加されるため、文字列の登録先に何らかのデータが存在するのであれば、新しい文字列を既存文字列に追記する方式となる。
続いてステップS707に進み、属性情報を持つ子要素かどうかを検査する。属性情報からは当該セルの連結情報を得る。連結情報とは、複数のセルを行方向や列方向に連結して大きなセルにする情報のことを示す。
ステップS707において当該セルが属性情報を持たない場合(ステップS707で「N」の場合)、ステップS713に進み、次の子要素の処理に移る。当該セルが属性情報を持つ場合(ステップS707で「Y」の場合)、ステップS708に進み、行連結の属性情報かどうかを検査する。
行連結の開始属性である場合(ステップS708で「Y」の場合)、ステップS710に進み、行連結の開始属性を当該セルに登録する。行連結の開始属性でない場合(ステップS708で「N」の場合)、行連結中である継続セルであるため、当該セルに継続セル属性を登録する。
続いてステップS711に進み、列方向の連結属性であるかどうかを検査する。列連結属性である場合(ステップS711で「Y」の場合)、ステップS712に進み、当該セルに列連結数を登録する。列連結属性でない場合(ステップS711で「N」の場合)、ステップS712をスキップする。
続いて、ステップS713に進み、すべての子要素の処理が終わっていなければ、ステップS703に戻って同様にセル解析処理を継続する。
すべての子要素の処理が終了していれば、ステップS714に進み、ステップS706で追記した文字列全体を当該セルの文字列として登録する。
続くステップS715では、図5で算出している行番号と図6で算出している列番号を当該セルに登録し、セル解析処理を終了する。
図6に戻って、ステップS605において、次の行列番号登録のための列番号を算出する。このときステップS604で列連結属性によって列連結数が当該セルに登録されている場合は、その数値を加算し、そうでない場合は1を加算することによって列番号を算出する。
ステップS606に進み、すべての列の処理を完了していれば、行解析処理を終了する。未処理の列データがある場合はステップS603に進み、同様の解析処理を継続する。
図5に戻って、ステップS505に進み、次の行列番号登録のための行番号を算出する。続いてステップS506に進み、すべての行処理を完了していればステップS507に進み、そうでなければステップS503に戻って同様に解析処理を継続する。
ステップS507において、行連結の処理を実施する。行連結の処理は、前述した図7のステップS709及びステップS710で登録した行連結の属性を用いて算出する。算出した行連結数を当該セルの行連結数に登録する。
続くステップS508において、解析を完了した表に対して表ID登録処理を実施する。表IDとは任意に割り振られたID番号であり、一意に表を識別するために用いる。表IDの一例としては、固定長の昇順の数字で表現されるものである。ステップS508の表ID登録処理を実施して表解析処理を終了する。
図5における表解析処理の一例を、図8及び図9に示す。図8は表の一例であり、この表に対して図5の表解析処理を実施して得られる解析データを図9に示す。
図9の各要素は、「表記」「列番号」「行番号」「インデント(字下げ)」「列連結数」「行連結数」の順に組み合わせたものであり、前記組み合わせをリスト構造に格納することで表全体を表現することができる。
例えば、図8においてセル805は、図9の組み合わせ901になる。組み合わせ901は、表記が「パターン2」、列番号が「3」、行番号「0」、インデント「0」、列連結数「2」、行連結数「1」を意味する。
また、図8のセル802から804までは、「表記」を表しているが、これらの領域がMedDRAテーブル107のDBデータとの整合性を検証する領域である。
図4に戻って、ステップS405では、表登録処理を行う。表登録処理は、前記リスト化された構造を管理する処理である。
そして、ステップS406に進み、本文要素のすべての子要素について解析処理が済んでいれば表抽出処理を終了する。
まだ解析処理が済んでいない子要素があればステップS402に戻り、表抽出処理を継続する。
図3に戻って、ステップS303において、表連結処理を実施する。表連結処理は紙面の都合で大きな表が複数に分割されている状態のものを、論理的に再接続する処理である。
表連結処理では、図4のステップS405において、表登録する際に表題として登録したものを使う。
具体的には、表題内に記述されている表番号が同じものを再接続可能とする。補助的な再接続検証として、表題名称が同じ或いは含む場合も再接続対象としてもよい。
一例を上げると、「表1:事例」と「表1:事例(続き)」の場合は、表番号が一致し且つ表題を含む場合であるので、再接続対象となる。
なお、再接続検証の絶対条件として、表構造が同じもの即ちヘッダ情報が同じものでなければならない。
また、前述した表番号は表題内から正規表現等を用いることで容易に抽出することができるため、ステップS303の表連結処理中に随時抽出・接続判定することも可能であるし、或いは図4のステップS405の表登録の際に表題の登録と共に予め表番号を抽出・登録しておいてもよい。
ステップS304では、表・MedDRA検証処理を実施する。表・MedDRA検証処理とは、図4のステップS405で登録したリスト化(表項目リスト)した表について、MedDRAテーブル107に記憶したDBデータから、該当する「表記」のレコードを検索する。
図10に表・MedDRA検証処理のフローチャートを示す。
ステップS1001では、表の最下列からMedDRAのバージョン情報を取得する。本ステップでは、図4のステップS405において登録した表項目リストのうち、最下列の「表記」を取得する。
例えば、図9において、最下列であるということは、最も大きな値をもつ「列」、つまり「6」の「表記」である「すべての試験には環境Cを用いている 有害事象の用語はMedDRA version 10.0に従う」を取得する。
通常、図8に示すように、MedDRAのバージョンについては、表の最下列に記載することが通例であることから、セル806の記載から抜き出している。
尚、表の何れの位置にMedDRAのバージョンを記載するかは、任意であり、その位置に合わせてセルから「表記」を取得しても良い。
この取得した「表記」からMedDRAのバージョンに関する情報をまずは抽出する。例えば、この「表記」に対して形態素解析を行うことによって、図11に示す解析結果を得ることができ、品詞が数値の形態素(図の例では、「10.0」)をバージョン情報として抽出する。
あるいは、この「表記」から「version」や「バージョン」等のバージョンに関する情報を特定して、その後続に位置する形態素をバージョン情報として抽出する。
ステップS1002では、行番号を初期化するため、最も大きな行番号を取得する。
ステップS1003からステップS1007までの処理を、表項目リストの全ての行に対して処理を行うまで繰り返す。
ステップS1004では、表項目リストから取得した表項目データが、「表記」に値がセットされ、「列」に0の値がセットされているか否かを判定し、セットされていると判定した場合は、ステップS1005へ処理を進め、セットされていると判定しない場合は、ステップS1006へ処理を進める。
ステップS1005では、表の「表記」とMedDRAテーブル107のDBデータとの整合性チェックを行うが、詳細は、図12を用いて説明する。
ステップS1101では、ステップS1001で取得したバージン情報を用いてMedDRAテーブル107に問い合わせる。
ステップS1102では、表項目データが、SOCの項目であるか否かを判定し、SOCの項目であると判定した場合は、ステップS1103へ処理を進め、SOCであると判定しない場合は、ステップS1104へ処理を進める。
ステップS1103では、表項目データをワークエリアに保持しておき、処理を終了する。
ステップS1104では、表項目データが、PTの項目、あるいは、PTの項目であり、かつ表項目データの「インデント」が1であるか否かを判定し、何れの条件を満たす場合は、ステップS1105へ処理を進め、何れの条件を満たさない場合は、処理を終了する。
ここで、SOCとPTについて説明する。図13には、MedDRAの階層構造を表している。MedDRAは、医薬品規制調和国際会議(ICH)の専門家ワーキンググループ(EWG)で開発され、ICHとして合意された、英語をベースとした医学用語集であり、欧米での医薬品規制において広く利用されている。
「ICH国際医薬用語集日本語版(MedDRA/J)」は英語版のMedDRAに日本語を付加した用語集で、日本国内でも医薬品規制の場で広く利用されている。
MedDRAでは、症状、徴候、疾患、診断、適応症などを5階層に分けており、それぞれが親子関係を持っている。
図13に示すように、上位層から下位層の順に、SOC、HLGT、HLT、PT、LLTが定義されている。
これらの親子関係は、適宜、見直しがなされており、見直しがなされるたびにバージョンを識別するための番号等が発行される。
また、MedDRAは、データ構造(MedDRAテーブル107)が公開され、データの利用権限を持つものに対しては、データそのものが利用でき、システムとして利用できることになっている。
これらのデータは、バージョンに応じて親子関係が示される症状等に関する情報を備えている。
親子関係の例として、SOC、PT、LLTの各層における項目の例をあげると、SOCの項目が、感染症および寄生虫症であれば、その下位層であるPTの項目は、気管支炎があげられ、更に、その下位層にあたるLLTとしては、急性気管支炎、急性気管支炎および急性細気管支炎、急性気管支炎のインフルエンザ菌による二次感染、急性気管支炎のヘモフィルスによる二次感染等があげられる。
図14は、MedDRAの変更例であり、バージョン9.1からバージョン10.0に変わったときの内容を例示している。
ここでは、バージョン9.1では、急性気管支炎(Bronchitis acute)は、PTの項目であったが、バージョン10.0では、下位の下層語LLTに分類されることとなったことを表している。
従って、MedDRA10.0を利用した表を記載する場合、急性気管支炎はPTの項目として記載してはならないという制限が生まれたことを表している。
また、図8に示す表において、セル802から804に記載された内容は、SOCの項目またはPTの項目で記載される運用が、通常なされることを想定しており、このように記載された場合は、MedDRAの該当する version10.0の制限に従わなければならないという表を記載するための制限を持つことになる。
ステップS1105では、このPTの上位であるSOCをMedDRAテーブル107から取得し、ステップS1106では、ワークエリアに保持しているSOCとステップS1105で取得したSOCとを比較して、一致すれば、処理を終了し、一致しなければ、「表記」が誤りであると判定し、ステップS1107では、PTの上位であるSOCでないとしてエラーを表記誤り一覧画面1200(図15)へ表示して処理を終了する。
表記誤り一覧画面1200は、表を解析した結果、表の項目に記載された表記について、誤りがあったものを一覧表示するものであり、何れの表記に誤りがあったかを示すキーワード部分と、誤った理由を説明する部分とから構成されている。
本実施形態では、表には、PT1の上位層としてSOC1が記載されているが、MedDRAのversion10.0においては、このような親子関係が存在しないことからその旨が表示される。
本実施形態では、SOCとPTが記載された表について説明を行ったが、このような運用に限らず、何れの階層の項目を用いてセルに記載しても問題は無いことを明記しておく。
ステップS1006では、現在処理している表項目リストの行番号を記憶しておき、ステップS1003では、この記憶した行番号と、ステップS1002で初期化した行番号とを比較し、さらに、表項目リストの処理が完了した場合、本処理を終了する。
尚、ステップS1002の行番号初期化処理を行うことなく、全ての表項目リストを処理した後、本処理を終了しても良い。
以上、本発明によれば、ユーザが文書と当該文書に関係する表との関係性を容易に検証することができる。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様を取ることが可能であり、具体的には、複数の機器から構成するシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
なお、上述した各種データの構成及び表示の構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な内容で構成されることは言うまでもない。
また、本発明は、システム或いは装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記憶媒体を該システム或いは装置に読み出すことによって、そのシステム或いは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのソフトウェアによって表されるプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム或いは装置が、本発明の効果を享受することが可能となる。
100 文書分析装置
101 解析部
102 解析データ
103 照合部
104 照合データ
105 表示部
106 文書
107 MedDRAテーブル
201 CPU
202 RAM
203 ROM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/F(インターフェース)コントローラ
209 入力装置
210 表示装置
211 外部メモリ

Claims (6)

  1. 形式のデータの分析処理を行う情報処理装置であって、
    前記表形式のデータから、当該表を構成する項目間の親子関係及び当該親子関係を規定する資料を示す情報を取得する取得手段と、
    前記取得手段によ取得した項目間の親子関係が、前記取得手段により取得した親子関係を規定する資料を示す情報により特定される資料に規定された内容を満たすか否かを判定する判定手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記表形式のデータを、前記表における各セルの内容、および、当該表における当該セルの位置を特定する情報をリスト構造のデータに変換する変換手段をさらに備え、
    前記取得手段は、前記リスト構造のデータに基づき、当該表を構成する項目間の親子関係及び当該親子関係を規定する資料を示す情報を取得することを特徴とする請求項1に記載の情報処理装置。
  3. 前記取得手段は、前記表における所定の位置にあるセルから、前記親子関係を規定する資料を示す情報を取得することを特徴とする請求項2に記載の情報処理装置。
  4. 前記親子関係を規定する資料を、当該資料のバージョン情報と対応付けて記憶する記憶手段を備え、
    前記取得手段は、親子関係を規定する資料を示す情報として、当該資料のバージョン情報を取得することを特徴とし、
    前記判定手段は、前記取得手段により取得したバージョン情報に対応付けて記憶された親子関係を規定する資料の内容に基づき、前記取得手段により取得した項目間の親子関係が当該資料に規定された内容を満たすか否かを判定することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 形式のデータの分析処理を行う情報処理装置における情報処理方法であって、
    前記情報処理装置の取得手段が、前記表形式のデータから、当該表を構成する項目間の親子関係及び当該親子関係を規定する資料を示す情報を取得する取得工程と、
    前記情報処理装置の判定手段が、前記取得工程によ取得した項目間の親子関係が、前記取得工程により取得した親子関係を規定する資料を示す情報により特定される資料に規定された内容を満たすか否かを判定する判定工程と、
    を備えたことを特徴とする情報処理方法。
  6. コンピュータを、
    形式のデータから、当該表を構成する項目間の親子関係及び当該親子関係を規定する資料を示す情報を取得する取得手段と、
    前記取得手段によ取得した項目間の親子関係が、前記取得手段により取得した親子関係を規定する資料を示す情報により特定される資料に規定された内容を満たすか否かを判定する判定手段として機能させるためのプログラム。


JP2016193590A 2016-09-30 2016-09-30 情報処理装置、制御方法、及びプログラム Active JP6853474B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016193590A JP6853474B2 (ja) 2016-09-30 2016-09-30 情報処理装置、制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016193590A JP6853474B2 (ja) 2016-09-30 2016-09-30 情報処理装置、制御方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2018055576A JP2018055576A (ja) 2018-04-05
JP2018055576A5 JP2018055576A5 (ja) 2020-05-28
JP6853474B2 true JP6853474B2 (ja) 2021-03-31

Family

ID=61836801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016193590A Active JP6853474B2 (ja) 2016-09-30 2016-09-30 情報処理装置、制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6853474B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3482871B2 (ja) * 1998-05-12 2004-01-06 富士ゼロックス株式会社 表作成装置、表作成プログラムを記録したコンピュータ読み取り可能な記録媒体、および表作成方法
JP2010186325A (ja) * 2009-02-12 2010-08-26 Pronexus Inc 構造化文書生成装置ならびにそのためのプログラムおよび記録媒体
JP5113864B2 (ja) * 2010-03-03 2013-01-09 みずほ情報総研株式会社 報告情報収集システム、方法及びプログラム
JP6168309B2 (ja) * 2012-06-29 2017-07-26 日本電気株式会社 表情報理解システム、表情報変換システム、方法および記録媒体

Also Published As

Publication number Publication date
JP2018055576A (ja) 2018-04-05

Similar Documents

Publication Publication Date Title
US10970536B2 (en) Method and system for assessing similarity of documents
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US11592967B2 (en) Method for automatically indexing an electronic document
US7720814B2 (en) Repopulating a database with document content
US20100325539A1 (en) Web based spell check
JP6042974B2 (ja) データ管理装置、データ管理方法及び非一時的な記録媒体
JP6130315B2 (ja) ファイル変換方法及びシステム
WO2013063029A1 (en) Automatic creation of clinical study reports
JPS62287336A (ja) 電子辞書
JP6112536B2 (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
JP6853474B2 (ja) 情報処理装置、制御方法、及びプログラム
CN113505599B (zh) 病历文书中实体概念的提取方法、装置及可读存储介质
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
US10789245B2 (en) Semiconductor parts search method using last alphabet deletion algorithm
JP7244767B2 (ja) 情報処理装置、制御方法、及びプログラム
WO2022215433A1 (ja) 情報表現構造解析装置、および情報表現構造解析方法
JP6717909B2 (ja) 要約生成サーバ、要約生成システム及び要約生成方法
US7305332B1 (en) System and method for automatic extraction of testing information from a functional specification
WO2024090463A1 (ja) ソフトウェア構成管理データ構造、ソフトウェア構成管理データ作成支援装置、ソフトウェア構成管理データ作成支援方法
JP2017207865A (ja) 情報処理装置、制御方法、及びプログラム
JP2023072885A (ja) 文書構造化装置、文書構造化方法
JP2023120824A (ja) 文書分析システム、文書分析方法、及びプログラム
CN114442883A (zh) 基于ai和rpa的业务处理方法及装置
JP2007079652A (ja) 用語抽出装置、およびプログラム
Manilal et al. Project Proposal

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180703

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210222

R151 Written notification of patent or utility model registration

Ref document number: 6853474

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250