JP5894273B2 - 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム - Google Patents

文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム Download PDF

Info

Publication number
JP5894273B2
JP5894273B2 JP2014522292A JP2014522292A JP5894273B2 JP 5894273 B2 JP5894273 B2 JP 5894273B2 JP 2014522292 A JP2014522292 A JP 2014522292A JP 2014522292 A JP2014522292 A JP 2014522292A JP 5894273 B2 JP5894273 B2 JP 5894273B2
Authority
JP
Japan
Prior art keywords
document
work
work procedure
similarity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014522292A
Other languages
English (en)
Other versions
JPWO2014002212A1 (ja
Inventor
義行 小林
義行 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Application granted granted Critical
Publication of JP5894273B2 publication Critical patent/JP5894273B2/ja
Publication of JPWO2014002212A1 publication Critical patent/JPWO2014002212A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Manufacturing & Machinery (AREA)

Description

本発明は、製品の製造、保守、検査など定められた手順にしたがって作業を行う業務向けの作業手順書(マニュアル)などの文書を検索する方法および装置に関する。
定まった手順で作業を進める業務は数多くある。そのような業務では、作業を進める手順を説明した作業手順書があらかじめ準備され、作業者はその作業手順書に従って適正な手順で作業を進めることが求められる。したがって、作業者が実施しようとする業務にふさわしい作業手順書が簡便に検索できることが求められている。
しかし、作業を説明する用語の種類が限られているために、一般的なキーワード検索では、効率的に適切な作業手順書を見つけ出すことが難しいという問題がある。
作業手順書の効率的な検索を支援する発明として、特許文献1がある。この発明は、コンピュータなどのネットワーク保守作業者向けに作業手順書を作成するとき、ひな形となる作業手順書の検索を支援するためのものである。作業手順の類似度によって作業手順書を検索し、さらに工事対象のネットワークと作業手順書に記載のネットワークのあいだの類似度を評価することで、作業手順書を効率的に検索できるようにする。作業手順の類似度の計算には、系列マッチング技術を用いることができる。そのような技術として、非特許文献1がある。
特開2009−181170号公報
J.Pei, J.Han, B.Mortazavi-Asl, H.Pinto, Q.Chen, U.Dayal, and M.-C. Hsu, "PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth", Proc. of The 17th Int'l Conf. on Data Engineering, pp.215-224 (2001) 武智峰樹、徳永健伸、松本裕治、田中穂積、「WWWページからの手順に関する箇条書きの抽出」、情報処理学会論文誌、 Vol.44 No. SIG 5(TOD 19) 、pp.51-63 、2003年 「アルゴリズムイントロダクション」ISBN:978−4764903357の16章
特許文献1の発明は、作業手順の類似にしたがい文書を検索する方法と工事対象のネットワークの類似度を使った検索結果の絞込み方法の2つの方法を組み合わせたものである。後者の方法は、ネットワーク工事がない作業には適用できない。また、前者の方法は、さまざまな作業手順書の検索に適用できるが、作業者が十分に詳細な作業手順を入力できることを想定している。しかし、詳細な作業手順を入力することは、キーワードを入力することに比べ大きな負担である。したがって、作業者は、簡素な作業手順を入力して検索すると予想される。このような場合、類似する作業手順書を検索するだけでは、さまざまな観点で類似する検索結果が得られ、適切な作業手順書を選ぶことが難しい。特許文献1では、作成途上の作業手順書に書かれている作業手順との類似度を使い検索することを想定しており、これは、簡素な作業手順を入力して詳細な作業手順に関する記述を得ようとすることを想定しているとみなせる。
本発明は、作業手順をクエリとするだけで適切な文書を検索でき、かつ、作業手順をクエリとするとき、詳細な作業手順を入力する必要がない文書検索方法および装置を提供することを目的とする。
上記課題を解決するために、本発明は請求の範囲に記載した構成を採用する。
本発明の文書関連付け方法の一例を挙げるならば、文書ファイル入力部から、複数の文書ファイルを入力するステップと、作業手順抽出部が、前記文書ファイルそれぞれから作業手順の記述を抽出するステップと、作業手順類似度評価部が、作業手順の類似度を評価するステップと、作業手順分類部が、前記作業手順の類似度にしたがって前記文書を木構造に分類するステップを備え、前記作業手順の類似度を評価するステップは、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、前記文書を木構造に分類するステップは、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合するステップと、統合した分類に含まれる作業手順を統合するステップとを繰り返すことにより木構造に分類することを特徴とする文書関連付け方法である。
また、本発明の文書検索方法は、前記の文書関連付け方法を用いて作成した分類データベースを、検索クエリ受付部から、作業手順の形式の検索クエリを入力するステップと、作業手順検索部が、作業手順類似度検索部による、前記検索クエリと前記分類データベースの分類ごとの作業手順の類似度の評価に基づいて、文書を検索するステップとにより検索することを特徴とする文書検索方法である。
本発明の文書関連付け装置の一例を挙げるならば、複数の文書ファイルを入力する文書ファイル入力部と、前記文書ファイルそれぞれから作業手順の記述を抽出する作業手順抽出部と、作業手順の類似度を評価する作業手順類似度評価部と、前記作業手順の類似度にしたがって前記文書を木構造に分類する文書分類部を備え、前記作業手順類似度評価部は、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、前記文書分類部は、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合し、統合した分類に含まれる作業手順を統合することを繰り返すことにより木構造に分類することを特徴とする文書関連付け装置である。
また、本発明の文書検索装置は、作業手順書を検索する文書検索装置であって、複数の文書ファイルを入力する文書ファイル入力部と、入力された前記文書ファイルを記憶する文書データベースと、前記文書ファイルそれぞれから作業手順の記述を抽出する作業手順抽出部と、作業手順の類似度を評価する作業手順類似度評価部と、前記作業手順の類似度にしたがって前記文書を木構造に分類する文書分類部と、前記文書を分類した結果を保存する文書分類データベースと、作業手順の形式の検索クエリの入力を受け付ける検索クエリ受付部と、前記作業手順類似度検索部による、前記検索クエリと前記分類データベースの分類ごとの作業手順の類似度の評価に基づいて、文書を検索する文書検索部を備え、前記作業手順類似度評価部は、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、前記文書分類部は、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合し、統合した分類に含まれる作業手順を統合することを繰り返すことにより木構造に分類することを特徴とする文書検索装置である。
本発明のプログラムの一例を挙げるならば、コンピュータを文書関連付け装置として機能させるためのプログラムであって、複数の文書ファイルを入力する文書ファイル入力部と、前記文書ファイルそれぞれから作業手順の記述を抽出する作業手順抽出部と、作業手順の類似度を評価する作業手順類似度評価部と、前記作業手順の類似度にしたがって前記文書を木構造に分類する文書分類部として機能させ、前記作業手順類似度評価部は、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、前記文書分類部は、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合し、統合した分類に含まれる作業手順を統合することを繰り返すことにより木構造に分類することを特徴とするプログラムである。
本発明によれば、作業手順の類似度にしたがってに分類された文書が検索されるので、分類ごとに文書を比較して適切な文書を選べばよく、文書を選択する作業の負担を軽減することができる。
本発明の実施例の文書関連付け装置および文書検索装置のブロック構成図。 本発明の実施例のシステムの構成図。 本発明の実施例の処理のフローを示す図。 作業手順とファイル識別子のデータ構造を示す図。 作業手順書分類処理の処理の流れを示す図。 作業手順の統合例を示す図。 作業手順の統合処理の流れを示す図。 作業手順書分類結果の模式例を示す図。 作業手順の類似度の模式例を示す図。 文字列の対応付けの例文。 文字列の類似度評価の表。 文字列の対応関係の例。 作業手順書データベースのテーブル。 作業手順書分類データベースのテーブル。 作業手順書検索の処理の流れを示す図。
本発明の実施の形態を、システム上の機能に基づいて表したブロック構成図と、具体的なシステムの構成図によって説明する。
図1に、本発明の実施例の、システム上の機能に基づいて表したブロック構成を示す。作業手順書を分類および検索する構成は、作業手順書ファイル入力部101、作業手順書ファイル読込部102、作業手順抽出部103、作業手順書分類部104、作業手順類似度評価部105、作業手順書データベース106、作業手順書分類データベース107、検索クエリ受付部108、作業手順書検索部109、作業手順書ファイル出力部110から構成されている。
また、本システムは、具体的なシステム構成としては、図2に示すように、中央処理ユニットを持ち蓄積プログラム方式によって情報を処理する中央処理装置201と、ランダムアクセスメモリからなる主記憶装置202と、処理対象の文書や処理結果の辞書を保存する外部記憶装置203と、文書などの入力に使用する入力装置204と、作成した辞書など情報処理結果を出力する出力装置205から構成されるコンピュータ等の装置上で動作する。中央処理装置201は、ネットワーク206を介して他の情報処理装置207と接続されていても良い。外部記憶装置203は、データベース2031や辞書2032を含んでいる。入力装置204は、CR-ROM読取装置2041、DVD読取装置2042、キーボード2043などから構成される。出力装置205は、CR-ROM書込装置2051、DVD書込装置2052、ディスプレイ2053などから構成される。そして、プログラムを入力装置204やネットワーク206を介して主記憶装置202に読み込み、中央処理装置201上で動作させることにより、図1に示したシステムを実現することができる。
以下に、図1の各構成を、詳細に説明する。
作業手順書ファイル入力部101は、DVDやCD−ROMなどの記憶媒体の形式でシステムの外部から入力される文書ファイルを入力装置204で受け付け、外部記憶装置203に保存する。外部記憶装置203上には、作業手順書データベース106、作業手順書分類データベース107が構築される。作業手順書ファイルはワードプロセッサなどで作成された電子化文書であり、内容は文字コード化されているとする。文字コードはとくに制限しない。作業手順書ファイルには識別のためのユニークな記号が付与される。以下では識別のためのユニークな記号をファイル識別子と呼ぶ。
作業手順書ファイル読込部102は、外部記憶装置203上に構築されている作業手順書データベース106に保存されている作業手順書を主記憶装置202に読込む。
作業手順抽出部103は、作業手順書ファイルから作業手順の内容を抽出する。抽出した作業手順は、ファイル識別子と対応づけて主記憶装置202に保持するものとする。作業手順は、XMLファイルなどの構造化文書ではタグなどによって明示的に示されているものとする。作業手順書は、作業を進める手順を説明することを目的とする文書なので、このような想定は妥当である。以下の説明では、明示的な情報を使って作業手順を抽出したものと仮定するが、そのような明示的な情報が無い場合、非特許文献2のような方法を使うことが考えられる。
作業手順書から抽出した作業手順は、図4に示すようにファイル識別子と作業手順を組にして保持し、以降の処理で用いる。
作業手順書分類部104は、作業手順書データベース106に登録されている作業手順書を作業手順の類似度にしたがって分類する。このとき、作業手順類似度評価部105を使って抽出した作業手順の類似度を評価しながら処理を進める。作業手順書を分類した結果は、作業手順書分類データベース107に保存される。
作業手順書分類処理の流れを図5に示す。ここでは、階層的クラスタリングによって分類するものとする。分類のアルゴリズムは、類似度を使って分類する方法であれば、階層的クラスタリングに限らない。
まず、S501ですべての作業手順をそれぞれひとつの分類とする。すなわち、作業手順書をひとつだけ含む分類を作業手順書数だけ作成し、各分類に異なる作業手順書を入れる。
つぎに、S502で分類のあいだの類似度を作業手順類似度評価部105によって計算する。最初の分類は作業手順をひとつだけ含むので、この作業手順を使い類似度を計算する。ループのなかの2回目以降の計算では、分類に含まれる作業手順を統合して、ひとつの作業手順とし、この作業手順を使い類似度を計算する。
類似度を計算した後は、S503で類似度最大の分類を2つ選び、それらを統合する。
さらに、S504で統合した分類に含まれる2つの作業手順を統合し、ひとつの作業手順とする。ふたつの作業手順のひとつひとつの作業は、作業手順類似度評価部105における計算において対応がつけられている。この結果を利用して作業手順を統合する。
統合例を図 6に、また、統合処理の流れを図7に示す。
まず、S701でふたつの作業手順の一方をA、他方をBとする。S702でBの作業手順の先頭から作業をひとつ読み出す。S703で読み出した作業についてAの作業との対応づけ結果についてチェックする。以下、対応づけのチェック結果ごとに処理が変わる(S704)。対応づいている作業が同じ作業の場合(例の作業1と作業5)、何もせず次の作業をチェックする。Bに空白が挿入されAの作業と対応づく場合、何もせず次の作業を処理する。Bの作業と対応づくAの作業が無い場合、Bの作業をAのこの位置に挿入する(例の作業4)(S705)。対応づいている作業が異なる作業の場合、Bの作業とAの作業を比較し、辞書順に並ぶようにこの位置に挿入する(例の作業3と作業6)(S706)。
図5において、最後にS505で分類の数をチェックし、1であれば処理を終了し、1より大きければ、上記の処理を繰り返す。
作業手順書分類部104の処理により、図8に示す模式例のような木構造の分類が得られる。分類の構造は、つぎのようになっている。まず、すべての作業手順書を含む分類が最上位にある。この分類は、作業手順書AからGを含む分類と作業手順書HからLを含む分類に分かれる。前者の分類は、さらに、作業手順書AからCを含む分類と作業手順書DからGを含む分類に分かれる。さらに、作業手順書AからCを含む分類は、作業手順書AとBを含む分類と作業手順書Cを含む分類に分かれる。ほかの分類の構造も同様である。
作業手順類似度評価部105は、作業手順の類似度を評価する。このとき、作業手順における作業の並び方を系列マッチングの手法で比較し、作業手順のあいだで作業の対応がとれる割合によって評価する。
作業手順の類似度の評価方法を図9の模式的な例を使って説明する。
作業n(nは自然数)は、ひとつひとつの作業の名称を表し、縦に並べた作業名が作業手順を表す。例えば、(a)の左側は作業1,作業2,作業3,作業4,作業5と作業を順番に進める作業手順を表す。対応関係にある作業と作業の関係を横に並べ、対応関係ののうち同じ作業が組みになっている場合を直線で表す。
(a)の左側と右側は、同じ作業である。この場合、すべての作業のあいだに対応がつき、かつ、対応関係はすべて同じ作業の組である。したがって、作業手順の類似度は最大1となる。
(b)の左側と右側は、同じ作業から構成される系列であるが、作業の順番が異なる。この場合、対応関係が同じ作業なのは1組だけであり、作業手順の長さが5に対して1であるので、類似度を1/5=0.2とする。
(c)の左側と右側は、ほぼ同じ作業から構成される系列である。この場合、対応関係が同じ作業の組なの4組あり、作業手順の長さが5に対して4であるので、類似度を4/5=0.8 とする。
(d)の左側と右側も、ほぼ同じ作業から構成される系列であるが、系列の長さが異なる。この場合、系列に空白を挿入することで対応をつける。対応関係が同じ作業の組は4組ある。長いほうの作業手順を使って類似度を計算し4/5=0.8 とする。
図9に示した作業手順の類似度は、数式1にしたがって計算する。
Figure 0005894273
作業手順の対応づけは、文字列の対応づけと考え方は同じである。そこでDPマッチングを用いた文字列の類似度判定方法を利用して、作業手順の対応度を計算する。本計算方法は、非特許文献3など多数の書籍で公開されているのでここでは詳細に説明しない。
ここでは、図10に示す文字列の対応づけを例として用い、簡単に計算方法を説明する。簡単のために2つの文字列、「文書部品を利用した文書作成方法」と「文書を再利用した文書作成方法」を照合する。3つ以上の文字列を照合する場合は、すべての組み合わせを計算すればよい。
コストは、2つの文字列がどの程度異なっているかを示す数値である。一方の文字列を他方の文字列に変形するのに必要な操作の回数を使い計算する。操作としては、文字の挿入や削除、置換を考える。それぞれの操作にコストを付与し、必要な操作についてコストを合計する。ここでは、文字を挿入、削除、置換したとき−2点を与え、一致したときに2点を与えるものとする。
DPマッチングでは、図11に示すように、比較する文字列をそれぞれ列と行に対応させ、スコアを2次元の表で管理し、表のマスにスコアを順番に計算してゆく。図11の例は、行に「文書部品を利用した文書作成方法」、列に「文書を再利用した文書作成方法」を対応させている。表のマスの位置を、行と列を使い、表すとする。n行目、m列目のマスは(n,m)で表す。なお、行、列とも1から始まるものとする。マス(n,m)のスコアS(n,m)は、式1で計算される。このとき、スコアを計算するときに使ったマスを記憶しておく。
例えば、S(12,13)の値は、行の12番目の文字が「作」であり、列の13番目の文字が「作」であるので、1項はd(12,13)が2になるので14、2項は10、3項は10なので、最大である1項を選び、14になる。このとき、マス(12,13)のスコアはマス(11,12)の値から計算したことを記憶しておく。ただし、スコアが0になったときは、記憶していた分を含めすべて消去する。
スコア表の各セルのスコアは、そのセルのスコアを計算するまでにたどったセルが対応する文字列の類似度を表す。このスコアを計算すると、使ったマスを記憶したときと逆の順にたどることで、文字列の対応関係を得ることができる。スコアが高いセルから順に対応関係をたどることで、類似度が高い対応関係から順に得ることができる。このとき、一度たどったセルを2度たどらないようにすることで、同じ文字列を含む部分を何度も抽出することを抑制することができる。図11では、(15,16)の値が20で最大である。この値を得るために、たどったマスをたどる。文字列を対応づけた結果を図12に示す。
DPマッチングを用いた作業手順の対応づけは、数式2を再帰的に適用することで計算する。長さnの作業手順S(1, n)=(s1, s2, …, sn)と長さmの作業手順T(1, m)=(t1, t2, …, tm)の対応度を計算し、対応度m(S(1, n), T(1, m))が大きい対応づけを出力することで作業手順を対応づけられる。
Figure 0005894273
作業名の類似度判定にも、DPマッチングを用いた文字列の類似度判定方法を利用する。作業名K(1, n)=(k1, k2, …, kn)と作業名L(1, m)=(l1, l2, …, lm)の文字列類似度SMは、数式3により計算する。
Figure 0005894273
本実施列では、数式3を使い作業名が同一かどうか判定しているが、辞書を使い判定することも考えられる。辞書を使えば、「照合」と「マッチング」のような表記がまったく異なる同義語についても同一であることを判定できる。
作業手順書データベース106には、すべての作業手順書ファイルが保存されている。本データベースは、リレーショナルデータベースや、XMLデータベース、あるいは、ファイルサーバなどのプログラムを使って外部記憶装置203の上に構築することができる。本実施例では、リレーショナルデータベース上にテーブル形式で構築するものとする。図13に示すようにデータベース内部での管理に用いるファイルID、ファイル識別子、ファイル内の文字列を対応づけて保存する。
作業手順書分類データベース106には、作業手順書を分類した結果と、ファイル識別子および作業手順書から抽出した作業手順と関係づけて保存する。本データベースは、リレーションナルデータベースや、XMLデータベースなどのプログラムを使って外部記憶装置203の上に構築することができる。本実施例では、リレーショナルデータベース上にテーブル形式で構築するものとする。図14に示すように2つのテーブルで構築する。テーブル(a)には、作業手順、分類ID、親の分類IDを対応づけて保存する。親の分類IDとは、階層的クラスタリングで得られる分類階層でひとつ上の階層の分類IDである。作業手順は、作業手順類似度評価部105の計算時にふたつの分類を統合したときに得られる統合した作業手順である。(b)には、分類IDとファイルIDの対応関係を保存する。
検索クエリ受付部108は、作業手順書を検索するためのクエリの入力を受け付ける。クエリの入力は、キーボードなどの入力装置204を使う。クエリは、作業手順の形式で入力されるものとする。
作業手順書検索部109は、検索クエリとして入力された作業手順と作業手順書分類データベース107に保存されている分類ごとの作業手順の類似度を評価することで作業手順書を検索する。このとき作業手順類似度を使い作業手順のあいだの類似度を評価する。検索結果は、分類IDと作業手順書ファイルのファイル識別子によって表される。
処理の手順を図15に示す。S1501で検索クエリ受付部108で入力された検索クエリを読み込み。続いて、S1502で作業手順書分類データベース107から、階層が下の分類から順に分類IDをひとつ読み込み。このとき、作業手順を関係付けて読み込む。つぎに、S1503で分類が関係づいている作業手順と、検索クエリとの類似度を計算する。類似度が0よりも大きい場合(類似する場合)、S1505で分類が含む作業手順書のファイル識別子を記憶しておく。この結果は、作業手順書ファイル出力部110で使用する。つづいて、S1506で分類の上位分類(処理した分類を含む分類)は、以降、処理済みとして扱うようチェック済みとしてマークする。S1507でチェックマークがないあるいはまだ処理していない分類があれば、もういちど検索クエリとの照合処理を行う。
作業手順書ファイル出力部110は、記憶しておいたファイル識別子を使って作業手順書データベース106から作業手順書ファイルを読み出し、ディスプレイなどの出力装置205に出力する。このとき、類似度が大きい順にソートして出力することで検索クエリにより適合した作業手順書をランキングの上位に表示することができる。
図3に、図1のブロック構成図に対応する、本実施例の処理のフローを示す。S301で作業手順書ファイルを入力し、作業手順書データベース106に記憶する。S302で作業手順書データベース106から作業手順書ファイルを読み込む。S303で作業手順書ファイルから作業手順の記述を抽出する。S304で作業手順の類似度を評価する。S305で作業手順の類似度にしたがって文書を分類し、作業手順書分類データベース107を構築する。ここまでが、作業手順関連づけ方法に該当する。
次に、構築した作業手順書分類データベースを用いて、作業手順書を検索する。S306で作業手順書を検索するための検索クエリの入力を受け付ける。S307で検索クエリとして入力された作業手順と、作業手順書分類データベース107に保存されている分類ごとの作業手順の類似度を評価し、作業手順書を検索する。S308で検索結果に基づいて、作業手順書データベース106から作業手順書ファイルを読み出して出力装置205へ出力する。
以上、図1および図3に示す装置および方法によって、作業手順を関連づけまた作業手順書を効率的に検索できることを説明した。
101 作業手順書ファイル入力部
102 作業手順書ファイル読込部
103 作業手順抽出部
104 作業手順書分類部
105 作業手順類似度評価部
106 作業手順書データベース
107 作業手順書分類データベース
108 検索クエリ受付部
109 作業手順書検索部
110 作業手順書ファイル出力部
201 中央処理装置
202 主記憶装置
203 外部記憶装置
204 入力装置
205 出力装置
206 ネットワーク
207 情報処理装置

Claims (11)

  1. 文書ファイル入力部から、複数の文書ファイルを入力するステップと、
    作業手順抽出部が、前記文書ファイルそれぞれから作業手順の記述を抽出するステップと、
    作業手順類似度評価部が、作業手順の類似度を評価するステップと、
    作業手順分類部が、前記作業手順の類似度にしたがって前記文書を木構造に分類するステップを備え
    前記作業手順の類似度を評価するステップは、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、
    前記文書を木構造に分類するステップは、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合するステップと、統合した分類に含まれる作業手順を統合するステップとを繰り返すことにより木構造に分類することを特徴とする文書関連付け方法。
  2. 請求項に記載の文書関連付け方法において、
    前記作業手順の類似度を評価するステップにおいて、更に、作業手順を構成する作業名を比較するとき系列マッチングを利用して作業手順の名称について類似度を評価することを特徴とする文書関連付け方法。
  3. 請求項に記載の文書関連付け方法において、
    前記作業手順の類似度を評価するステップにおいて、更に、作業手順を構成する作業名を比較するとき辞書を利用して作業手順の名称について類似度を評価することを特徴とする文書関連付け方法。
  4. 請求項1〜の何れか1つに記載の文書関連付け方法において、
    前記文書は、作業手順書であることを特徴とする文書関連付け方法。
  5. 請求項1〜の何れか1つに記載の文書関連付け方法を用いて作成した分類データベースを、
    検索クエリ受付部から、作業手順の形式の検索クエリを入力するステップと、
    作業手順検索部が、作業手順類似度検索部による、前記検索クエリと前記分類データベースの分類ごとの作業手順の類似度の評価に基づいて、文書を検索するステップとにより検索することを特徴とする文書検索方法。
  6. 複数の文書ファイルを入力する文書ファイル入力部と、
    前記文書ファイルそれぞれから作業手順の記述を抽出する作業手順抽出部と、
    作業手順の類似度を評価する作業手順類似度評価部と、
    前記作業手順の類似度にしたがって前記文書を木構造に分類する文書分類部を備え
    前記作業手順類似度評価部は、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、
    前記文書分類部は、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合し、統合した分類に含まれる作業手順を統合することを繰り返すことにより木構造に分類することを特徴とする文書関連付け装置。
  7. 請求項に記載の文書関連付け装置において、
    前記作業手順類似度評価部は、作業手順を構成する作業名を比較するとき系列マッチングを利用して作業手順の名称について類似度を評価することを特徴とする文書関連付け装置。
  8. 請求項に記載の文書関連付け装置において、
    前記作業手順類似度評価部は、作業手順を構成する作業名を比較するとき辞書を利用して作業手順の名称について類似度を評価することを特徴とする文書関連付け装置。
  9. 請求項の何れか1つに記載の文書関連付け装置において、
    前記文書は、作業手順書であることを特徴とする文書関連付け装置。
  10. 作業手順書を検索する文書検索装置であって、
    複数の文書ファイルを入力する文書ファイル入力部と、
    入力された前記文書ファイルを記憶する文書データベースと、
    前記文書ファイルそれぞれから作業手順の記述を抽出する作業手順抽出部と、
    作業手順の類似度を評価する作業手順類似度評価部と、
    前記作業手順の類似度にしたがって前記文書を木構造に分類する文書分類部と、
    前記文書を分類した結果を保存する文書分類データベースと、
    作業手順の形式の検索クエリの入力を受け付ける検索クエリ受付部と、
    前記作業手順類似度検索部による、前記検索クエリと前記分類データベースの分類ごとの作業手順の類似度の評価に基づいて、文書を検索する文書検索部を備え
    前記作業手順類似度評価部は、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、
    前記文書分類部は、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合し、統合した分類に含まれる作業手順を統合することを繰り返すことにより木構造に分類することを特徴とする文書検索装置。
  11. コンピュータを文書関連付け装置として機能させるためのプログラムであって、
    複数の文書ファイルを入力する文書ファイル入力部と、
    前記文書ファイルそれぞれから作業手順の記述を抽出する作業手順抽出部と、
    作業手順の類似度を評価する作業手順類似度評価部と、
    前記作業手順の類似度にしたがって前記文書を木構造に分類する文書分類部として機能させ、
    前記作業手順類似度評価部は、作業の並び方を系列マッチングの手法を利用して比較し、作業の対応がとれる割合によって作業手順の類似度を評価し、
    前記文書分類部は、先ず全ての作業手順をそれぞれ一つの分類とし、次に、類似度最大の分類を2つ選び統合し、統合した分類に含まれる作業手順を統合することを繰り返すことにより木構造に分類することを特徴とするプログラム。
JP2014522292A 2012-06-27 2012-06-27 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム Expired - Fee Related JP5894273B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/066348 WO2014002212A1 (ja) 2012-06-27 2012-06-27 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム

Publications (2)

Publication Number Publication Date
JP5894273B2 true JP5894273B2 (ja) 2016-03-23
JPWO2014002212A1 JPWO2014002212A1 (ja) 2016-05-26

Family

ID=49782444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014522292A Expired - Fee Related JP5894273B2 (ja) 2012-06-27 2012-06-27 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム

Country Status (2)

Country Link
JP (1) JP5894273B2 (ja)
WO (1) WO2014002212A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635897B2 (en) 2017-10-25 2020-04-28 Kabushiki Kaisha Toshiba Document understanding support apparatus, document understanding support method, non-transitory storage medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6365070B2 (ja) * 2014-07-28 2018-08-01 富士通株式会社 検索プログラム、装置、及び方法
JP6722565B2 (ja) * 2016-11-04 2020-07-15 Kddi株式会社 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106474A (ja) * 1994-10-07 1996-04-23 Hitachi Ltd 類似例文検索結果表示方法及び装置
JP2000222215A (ja) * 1999-01-27 2000-08-11 Mitsubishi Electric Corp 手順ベース事例検索システム
JP2003316796A (ja) * 2002-04-26 2003-11-07 Fuji Xerox Co Ltd 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム
JP2004145626A (ja) * 2002-10-24 2004-05-20 Telecommunication Advancement Organization Of Japan 文書分類支援装置およびコンピュータプログラム
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2009181170A (ja) * 2008-01-29 2009-08-13 Fujitsu Ltd 作業手順書作成支援システム
JP2010176626A (ja) * 2009-02-02 2010-08-12 Fujitsu Ltd 文書クラスタリングプログラム及び文書クラスタリング方法
JP2010267141A (ja) * 2009-05-15 2010-11-25 Toshiba Corp 文書分類装置およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106474A (ja) * 1994-10-07 1996-04-23 Hitachi Ltd 類似例文検索結果表示方法及び装置
JP2000222215A (ja) * 1999-01-27 2000-08-11 Mitsubishi Electric Corp 手順ベース事例検索システム
JP2003316796A (ja) * 2002-04-26 2003-11-07 Fuji Xerox Co Ltd 階層クラスタリング装置及び階層クラスタリング方法、階層クラスタリングプログラム、階層クラスタリングシステム
JP2004145626A (ja) * 2002-10-24 2004-05-20 Telecommunication Advancement Organization Of Japan 文書分類支援装置およびコンピュータプログラム
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2009181170A (ja) * 2008-01-29 2009-08-13 Fujitsu Ltd 作業手順書作成支援システム
JP2010176626A (ja) * 2009-02-02 2010-08-12 Fujitsu Ltd 文書クラスタリングプログラム及び文書クラスタリング方法
JP2010267141A (ja) * 2009-05-15 2010-11-25 Toshiba Corp 文書分類装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635897B2 (en) 2017-10-25 2020-04-28 Kabushiki Kaisha Toshiba Document understanding support apparatus, document understanding support method, non-transitory storage medium

Also Published As

Publication number Publication date
WO2014002212A1 (ja) 2014-01-03
JPWO2014002212A1 (ja) 2016-05-26

Similar Documents

Publication Publication Date Title
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
ES2375403T3 (es) Un método para la indexación automática de documentos.
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
JP2008146424A (ja) Xml文書の適合度の算出方法およびそのプログラムと、情報処理装置
JP5894273B2 (ja) 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
WO2008038416A1 (fr) Dispositif de recherche de document et procédé de recherche de document
US20130013604A1 (en) Method and System for Making Document Module
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
JP5215051B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Klampfl et al. Reconstructing the logical structure of a scientific publication using machine learning
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Packer et al. Cost effective ontology population with data from lists in ocred historical documents
Chala et al. A Framework for Enriching Job Vacancies and Job Descriptions Through Bidirectional Matching.
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP4362492B2 (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP2014134920A (ja) 設計書の検索システム、設計書の検索システムの構築方法およびそのためのプログラム
Garrido et al. NEREA: Named entity recognition and disambiguation exploiting local document repositories
JP2013101679A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Adefowoke Ojokoh et al. Automated document metadata extraction
Chanod et al. From legacy documents to xml: A conversion framework

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160225

R150 Certificate of patent or registration of utility model

Ref document number: 5894273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees