JP2011233164A

JP2011233164A - 文章対応付けシステムおよび文章対応付けプログラム

Info

Publication number: JP2011233164A
Application number: JP2011159799A
Authority: JP
Inventors: Yoshitaka Komiya; 禎崇古宮; Takamichi Akima; 孝道秋間
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-07-21
Filing date: 2011-07-21
Publication date: 2011-11-17
Anticipated expiration: 2028-04-15
Also published as: JP5312531B2

Abstract

【課題】実業務に関連する文章に対して、文章間の対応付けを行う際に、複数の文章間で対応付けを実行する、文章対応付けシステムおよび文章対応付けプログラムを提供する。
【解決手段】文章対応付けシステム１００は、実業務文章ＤＢ２２に含まれる実業務文章を、基軸文章ＤＢ２１に含まれる基軸文章と対応付ける。この際、基軸文章に含まれる単語と、実業務文章に含まれる単語とが一致する度合いとして、文章類似度を算出する。さらに、各実業務文章を、それぞれ最大の文章類似度を与える基軸文章に対して対応付ける。その後、対応付けが完了した実業務文章を、基軸文章の一部として集積し、これによって学習する。
【選択図】図２０

Description

本発明は、文章間の対応付けを行うシステムに関し、とくに、業務に関連する文章を扱うものに関する。

自治体や会社等の組織において、業務の内容および手順や、情報システムの構成を最適化するための設計手法として、様々なものが知られている。たとえば、ＥＡ（エンタープライズアーキテクチャ）は、業務およびシステムについて現状（ＡｓＩｓ）とあるべき姿（ＴｏＢｅ）とを整理し、さらに、あるべき姿の実現を目指した業務・システムの改善方策を段階的に実施していくことで、業務の標準化・効率化を図ることを目的とするものである。
たとえば自治体の業務については、取り纏め組織である総務省が業務統一のベースとして自治体ＥＡの参照モデルを作成し、これを自治体に提示して業務改善するよう指導を行っている。自治体はこの参照モデルを雛型にＥＡ分析を実施し、業務フローの統一を目指している。この参照モデルの様式は、インターネット上で非特許文献１に開示される。

このような手法において、現状をどのように最適化するかを検討するためには、現状とあるべき姿との対応関係が明確に把握されている必要がある。このため、たとえばＥＡにおける業務の分析では、現状の業務とあるべき姿の業務とを文章で記述し、それぞれの文章を対応付ける作業が行われる。

このような文章間の対応付けに応用可能な技術の例として、特許文献１に記載される検索システムが挙げられる。この検索システムは、任意に入力される例題文書を、データベースに登録された文書のいずれかに対応付けるものである。
また、文章でなく一般的な知識を表すデータを分類するとともに、分類の結果を学習する技術の例として、特許文献２に記載される知識処理システムが挙げられる。

特開２００３−２８１１８６号公報特開平５−１４３３４２号公報

総務省、「自治体ＥＡ業務・システム刷新化の手引き」、[online]、２００６年、総務省、［平成２０年３月２７日検索］、インターネット<URL:http://www.soumu.go.jp/denshijiti/system_tebiki/hyouki/gyomu/2a-4-yokenteigi.html>

しかしながら、従来の技術では、業務に関連する文章の対応付けを、複数の文章間で実行するシステムを構築することができないという問題があった。
たとえば、特許文献１には複数の例題文書を扱うことは明記されていない。
また、特許文献２の技術では、段落番号［００５４］等に記載されるように、適したフォーマットのデータを入力する必要がある。すなわち、業務内容を記述した、自然言語による文章を、曖昧性を排除したフォーマットに変換するために、高度な知識を有する管理者の作業が必要となる。このため、特許文献２の技術を、業務の内容を表す文章の処理に応用することは困難である。

この発明は、このような問題点を解決するためになされたものであり、業務に関連する文章の対応付けを、複数の文章間で実行する、文章対応付けシステムおよび文章対応付けプログラムを提供することを目的とする。

上述の問題点を解決するため、この発明に係る文章対応付けシステムは、文章間の対応付けを行う、文章対応付けシステムであって、対応付けの基軸となる複数の基軸文章と、基軸文章に対して対応付けを行なう対象となる複数の実業務文章とを記憶する、記憶手段と、実業務文章のそれぞれについて、基軸文章のいずれかへの対応付けを行う、演算手段とを備え、実業務文章はそれぞれ、その実業務文章を特定するための業務番号と、その実業務文章に対応する作業の処理内容を表す実業務文字列とを含み、基軸文章はそれぞれ、その基軸文章を特定するための番号と、その基軸文章に対応する作業の処理内容を表す基軸文字列とを含み、演算手段は、基軸文字列および実業務文字列のそれぞれに含まれる単語を識別し、演算手段は、基軸文字列に含まれる基軸単語と、実業務文字列に含まれる実業務単語とが一致する度合いに基づいて、業務番号と基軸文章を特定するための番号とを用いて対応付けを行い、演算手段は、出力用のデータを作成し、出力用のデータは、基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示す。

演算手段は、単語のそれぞれについて定義される重みに基づいて対応付けを行ってもよい。
演算手段は、実業務文字列および基軸文字列のそれぞれについて、形態素解析を行って実業務単語および基軸単語を取得し、演算手段は、実業務文字列と基軸文字列との組み合わせのそれぞれについて、実業務単語と、基軸単語またはその同義語とが一致する回数を算出し、演算手段は、組み合わせのそれぞれについて、一致する回数と、一致した基軸単語について定義された重みとを乗算して、各実業務単語の一致度を算出し、演算手段は、組み合わせのそれぞれについて、すべての実業務単語の一致度の総和を算出し、総和に基づいて、その組み合わせにおける一致する度合いを文章類似度として算出し、演算手段は、実業務文字列のそれぞれを、最も大きい文章類似度を与える基軸文章に対して、または、文章類似度が閾値以上となる基軸文章すべてに対して、対応付けてもよい。
演算手段は、基軸単語が名詞である場合にはその基軸単語の重みを１とし、それ以外の場合にはその基軸単語の重みを０とし、記憶手段は、複数の基軸単語について同義語を定義した辞書ファイルを記憶してもよい。
演算手段は、業務の入力または出力となる情報の名称を表す文字列と、業務に関連する法令の箇条番号とに基づいて対応付けを行ってもよい。
記憶手段は、１つの基軸文章と、対応付けにおいてその基軸文章に対応付けられたすべての実業務文章とを、１つの基軸文章に集積して記憶してもよい。
実業務文章は自治体の業務の内容を表すものであってもよい。

この発明に係る文章対応付けプログラムは、コンピュータを、上述の文章対応付けシステムとして機能させる。

この発明に係る文章対応付けシステムは、文章間の対応付けを行う、文章対応付けシステムであって、対応付けの基軸となる複数の基軸文章と、基軸文章に対して対応付けを行なう対象となる複数の実業務文章とを記憶する、記憶手段と、実業務文章のそれぞれについて、基軸文章のいずれかへの対応付けを行う、演算手段とを備え、実業務文章はそれぞれ、その実業務文章を特定するための業務番号と、その実業務文章に対応する作業の処理内容を表す実業務文字列とを含み、基軸文章はそれぞれ、その基軸文章を特定するための番号と、その基軸文章に対応する作業の処理内容を表す基軸文字列とを含み、演算手段は、基軸文字列および実業務文字列のそれぞれに含まれる単語を識別し、演算手段は、基軸文字列に含まれる基軸単語と、実業務文字列に含まれる実業務単語とが一致する度合いに基づいて、業務番号と基軸文章を特定するための番号とを用いて対応付けを行い、演算手段は、出力用のデータを作成し、出力用のデータは、基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示すので、基軸文章との対応付けが完了した実業務文章を、基軸文章の一部として集積して記憶し、これによって学習し、組織の業務に関連する文章の対応付けを、複数の文章間で実行することができる。
また、この発明に係る文章対応付けプログラムは、コンピュータを、上述の文章対応付けシステムとして機能させるので、組織の業務に関連する文章の対応付けを、複数の文章間で実行することができる。

本発明に係る文章対応付けシステムの構成を示す図である。図１の基軸文章ＤＢの構成の例を示す図である。図２の基軸文章ＤＢの元となる表の例を示す図である。図１の実業務文章ＤＢの構成の例を示す図である。図４の実業務文章ＤＢの元となる表の例を示す図である。図１の基軸単語ＤＢの構成の例を示す図である。図１の基軸単語拡張ＤＢの構成の例を示す図である。図１の実業務単語ＤＢの構成の例を示す図である。図１の突合詳細ＤＢの構成の例を示す図である。図１の突合詳細ＤＢの構成の例を示す図である。図１の突合詳細ＤＢの構成の例を示す図である。図１の突合詳細ＤＢの構成の例を示す図である。図１の集計ＤＢの構成の例を示す図である。図１の対応付け結果ＤＢの構成の例を示す図である。図１４の対応関係を概略的に示す図である。図１の文章対応付けシステムが、基軸単語ＤＢおよび基軸単語拡張ＤＢを作成する際の処理の流れを表すフローチャートである。図１の文章対応付けシステムが、基軸文章と実業務文章とを対応付ける際の処理の流れを表すフローチャートである。図１の文章対応付けシステムによる、対応付け結果の出力の例を示す図である。図１の集積の結果として更新された基軸文章ＤＢの構成の例を示す図である。図１の文章対応付けシステムの動作の概要を説明する図である。本発明の実施の形態２に係る実業務法令ＤＢの構成の例を示す図である。本発明の実施の形態２に係る基軸入力ＤＢの構成の例を示す図である。

以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態１．
図１に、本発明に係る文章対応付けシステム１００の構成を示す。文章対応付けシステム１００は、外部から入力される複数の文章に基づいて、文章間の対応付けを行うシステムである。
文章対応付けシステム１００は周知のコンピュータとしての構成を有し、演算を行う演算手段１０と、情報を格納する記憶手段２０とを備える。また、図示しないが、文章対応付けシステム１００は、外部からのデータの入力を受け取る入力部と、外部に対してデータを出力する出力部とを有する。演算手段１０はＣＰＵ（中央処理装置）を含み、記憶手段２０はメモリおよびＨＤＤ（ハードディスクドライブ）を含み、入力部はキーボードおよびマウスを含み、出力部はディスプレイおよびプリンタを含む。また、文章対応付けシステム１００は、通信ネットワークに対する入力装置と出力装置とを兼ねるネットワークインタフェース（図示せず）を備える。
また、図示しないが、記憶手段２０には、文章対応付けシステム１００の動作を規定する文章対応付けプログラムが格納されている。コンピュータである文章対応付けシステム１００は、この文章対応付けプログラムを実行することによって、本明細書に記載する機能を実現する。

記憶手段２０は、ＤＢ（データベース）として、基軸文章ＤＢ２１、実業務文章ＤＢ２２、基軸単語ＤＢ２５、基軸単語拡張ＤＢ２６、実業務単語ＤＢ２７、突合詳細ＤＢ２８、集計ＤＢ２９、および対応付け結果ＤＢ３０を記憶し格納する。これらのＤＢは、たとえばＲＤＢ（関係型データベース）として構築されるが、他の形式で構築されてもよい。

図２に、基軸文章ＤＢ２１の構成の例を示す。図２の各行が１つの基軸文章に対応する。これらの基軸文章は、組織の業務の内容を表すものである。また、これらの基軸文章は、文章対応付けシステム１００が文章間の対応付けを行う際の基軸となるものである。すなわち、文章対応付けシステム１００は、他の文章が、この基軸文章のいずれに対応するかを決定することにより、文章間の対応付けを行う。
基軸文章ＤＢ２１は、各基軸文章について、項目名Ｌ１，Ｌ２，Ｌ３，ＳＡ１，ＳＡ２，ＳＡ３，ＮＡＩＹＯＵ，ＩＮＰＵＴ，ＯＵＴＰＵＴ，ＲＥＦ，ＭＥＴＨＯＤ，Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２で表される情報を記憶する。

Ｌ１，Ｌ２，Ｌ３は、その基軸文章を特定するための情報としてのＥＡ番号を表す項目である。たとえば、Ｌ１は大項目の分類、Ｌ２は中項目の分類、Ｌ３は小項目の分類を、それぞれ表す。例として、図２の最上行の基軸文章は、Ｌ１＝１、Ｌ２＝１、Ｌ３＝０という値の組み合わせによって特定される。なお、以下の説明において、基軸文章を特定する際、３つのＥＡ番号を順に記して「基軸文章（１−１−０）」のように表記する。
ＳＡ１，ＳＡ２，ＳＡ３は、作業概要すなわちその基軸文章の要点を表す項目である。これらはたとえばそれぞれ大項目、中項目、小項目として、ＥＡ番号に対応する項目を表す。

ＮＡＩＹＯＵはその基軸文章に対応する作業の内容を表す項目である。この項目はたとえば自治体の業務の処理内容を表す文字列を含む。
ＩＮＰＵＴおよびＯＵＴＰＵＴは、その作業を行う際の入力および出力となる資料を特定する情報を表す項目である。これらは、たとえば資料の名称を表す文字列を含む。図２の例では、基軸文章（１−１−０）は、自治体の担当者が、「課税対象者情報」と名付けられた資料に基づいて、たとえば「総括表」と名付けられた資料を作成するという作業内容を表す。

ＲＥＦは、その基軸文章に関連するその他の情報を表す項目である。
ＭＥＴＨＯＤは、その作業の実施方法を表し、手作業を含むか否か、コンピュータシステムによる処理を含むか否か、および、外部委託を含むか否か、を表す項目である。
Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２は、作業に関係する法令の箇条番号（関係法令箇条番号）を表す項目であり、この順に、条番、条附番、項番、項附番、号番、号附番に対応する。たとえば第３１７条の６第１項の場合、Ｊ１＝３１７であり、Ｊ２＝６であり、Ｋ１＝１となる。なお、この例では基軸文章ＤＢ２１に含まれる基軸文章すべてが同一の法令（たとえば地方税法）のみに関連するものであるため法令名は記憶されないが、法令名を表す項目が追加で設けられてもよい。

この基軸文章ＤＢ２１は、たとえば図３に示す表に基づいて作成される。ここで、図３は総務省が規定する自治体ＥＡ参照モデルの例である。この参照モデルの様式は上述の非特許文献１に開示されている。また、このモデルに沿って作成された実際のデータ、すなわち図３に示す表の内容は、自治体が個別に総務省に問い合わせることによって入手可能である。
このデータをＤＢに入力した後、図２の項目名をそれぞれ所定の列に割り振ることで、基軸文章ＤＢ２１を作成することができる。項目名の割り振りは、たとえば専門の担当者が行うが、あらかじめ決められた規則に従って文章対応付けシステム１００が自動的に行ってもよい。

図４に、実業務文章ＤＢ２２の構成の例を示す。図４の各行が１つの実業務文章に対応する。これらの実業務文章は、組織の業務の内容を表すものである。また、これらの実業務文章は、文章対応付けシステム１００が基軸文章に対して対応付けを行う対象となるものである。すなわち、文章対応付けシステム１００は、実業務文章のそれぞれについて、上述の基軸文章のいずれかへの対応付けを行う。

実業務文章ＤＢ２２は、各基軸文章について、項目名Ｌ１，Ｌ２，Ｌ３，ＳＡ１，ＳＡ２，ＳＡ３，ＮＡＩＹＯＵ，Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２で表される情報を記憶する。これらの項目は、上述の基軸文章ＤＢ２１と同様に、実業務文章に関して、その実業務文章を特定するための情報（業務番号）、実業務文章の作業概要、および作業内容を表す。以下では、基軸文章と同様にして、実業務文章を特定する際に３つの業務番号を順に記して「実業務文章（１−１−０）」のように表記する。
なお、実業務文章ＤＢ２２は、図４に示される項目に加え、基軸文章ＤＢ２１と同様のＩＮＰＵＴ，ＯＵＴＰＵＴ，ＲＥＦ，ＭＥＴＨＯＤの項目を含んでもよい。

この実業務文章ＤＢ２２は、たとえば図５に示す表に基づいて作成される。ここで、図５は自治体における実際の作業を記述する表である。このデータをＤＢに入力した後、図４の項目名をそれぞれ所定の列に割り振ることで、実業務文章ＤＢ２２を作成することができる。項目名の割り振りは、たとえば専門の担当者が行うが、あらかじめ決められた規則に従って文章対応付けシステム１００が自動的に行ってもよい。

図６に、基軸単語ＤＢ２５の構成の例を示す。基軸単語ＤＢ２５は、基軸文章に含まれる単語（以下「基軸単語」と称する）それぞれに関連する情報を表すものである。この基軸単語ＤＢ２５は、基軸文章ＤＢ２１の所定の項目、たとえばＮＡＩＹＯＵに記憶される文章に含まれる単語に基づいて作成される。図６の例では、図２の基軸文章（１−１−０）および基軸文章（１−２−０）の作業内容に対応する部分のみが示されている。

基軸単語ＤＢ２５は、各基軸単語について、項目名Ｌ１，Ｌ２，Ｌ３，ＦＵＢＡＮ，ＴＡＮＧＯ，ＨＩＮＳＩで表される情報を記憶する。
Ｌ１，Ｌ２，Ｌ３は、基軸文章ＤＢ２１と同様である。ＦＵＢＡＮは、同一の基軸文章に含まれる基軸単語（すなわちＥＡ番号のＬ１，Ｌ２，Ｌ３がすべて一致する基軸単語）のそれぞれを互いに識別するために付される数字としての単語附番を表す項目である。ＴＡＮＧＯはその基軸単語に対応する文字列を表す項目である。ＨＩＮＳＩはその基軸単語の品詞を表す項目である。

図７は、基軸単語拡張ＤＢ２６の構成の例を示す。基軸単語拡張ＤＢ２６は、基軸単語ＤＢ２５に含まれる基軸単語のそれぞれに、さらに付加的な情報を関連付けるものである。なお、図７の例では、図６と同様に、図２の基軸文章（１−１−０）および基軸文章（１−２−０）の作業内容に対応する部分のみが示されている。
基軸単語拡張ＤＢ２６は、各基軸単語について、基軸単語ＤＢ２５と同様に、項目名Ｌ１，Ｌ２，Ｌ３，ＦＵＢＡＮ，ＴＡＮＧＯ，ＨＩＮＳＩで表される情報を記憶する。さらに、基軸単語拡張ＤＢ２６は、各基軸単語について、項目名ＯＭＯＭＩおよびＤＯＵＧＩＧＯで表される情報を関連付けて記憶する。ＯＭＯＭＩは、文章対応付けシステム１００が文章の対応付けを決定する際にその基軸単語がいかなる重みを持つかを表す項目である。ＤＯＵＧＩＧＯは、その基軸単語と同一の意味または類似した意味を持つ単語（またはそのような単語のリスト）を表す項目である。
なお、図７の例では、品詞（項目名ＨＩＮＳＩ）が名詞である単語のみに０でない重み（項目名ＯＭＯＭＩ）の値が設定され、それ以外の単語については重みがすべて０となっている。

図８は、実業務単語ＤＢ２７の構成の例を示す。実業務単語ＤＢ２７は、実業務文章に含まれる単語（以下「実業務単語」と称する）それぞれに関連する情報を表すものである。この実業務単語ＤＢ２７は、実業務文章ＤＢ２２の所定の項目、たとえばＮＡＩＹＯＵに記憶される文章に含まれる単語に基づいて作成される。なお、この例では、この項目名「ＮＡＩＹＯＵ」は、上述の基軸単語ＤＢ２５の基となる項目名「ＮＡＩＹＯＵ」と同一である。図８の例では、図４の実業務文章（１−１−０）および実業務文章（１−２−０）の作業内容に対応する部分のみが示されている。
実業務単語ＤＢ２７は、各実業務単語について、上述の基軸単語ＤＢ２５と同様に、項目名Ｌ１，Ｌ２，Ｌ３，ＦＵＢＡＮ，ＴＡＮＧＯ，ＨＩＮＳＩで表される情報を関連付ける。

図９〜図１２は、突合詳細ＤＢ２８の構成の例を示す。突合詳細ＤＢ２８は、実業務単語のそれぞれを基軸単語のそれぞれと突合し、これらが一致するかどうかを判定した結果と、その結果に基づいて算出される文章類似度とを表すものである。
この突合の結果は、文章の組み合わせを単位として記憶される。例として、
‐図９は実業務文章（１−１−０）を基軸文章（１−１−０）と突合した結果であり、
‐図１０は実業務文章（１−１−０）を基軸文章（１−２−０）と突合した結果であり、
‐図１１は実業務文章（１−２−０）を基軸文章（１−１−０）と突合した結果であり、
‐図１２は実業務文章（１−２−０）を基軸文章（１−２−０）と突合した結果である。

突合詳細ＤＢ２８は、各実業務単語に基づいて作成され、上述の実業務単語ＤＢ２７と同様に、項目名Ｌ１，Ｌ２，Ｌ３，ＦＵＢＡＮ，ＴＡＮＧＯで表される情報を記憶する。さらに、突合詳細ＤＢ２８は、各実業務単語について、項目名ＩＴＴＩＤＯ，ＩＴＴＩＤＯ２，ＧＡＴＴＩで表される情報を関連付けて記憶する。
ＩＴＴＩＤＯおよびＩＴＴＩＤＯ２は、基軸文章に含まれる単語と、実業務文章に含まれる単語とが一致する度合いを表す項目である。このうち、ＩＴＴＩＤＯは、その実業務単語と一致する基軸単語の重みＯＭＯＭＩの合計を表す。ＩＴＴＩＤＯ２は、その実業務単語が基軸単語の同義語と一致する場合、すなわち基軸単語拡張ＤＢ２６の項目ＤＯＵＧＩＧＯに含まれる単語と一致する場合の、その基軸単語の重みＯＭＯＭＩの合計を表す。ＧＡＴＴＩは、その実業務単語と合致した基軸単語、すなわちＩＴＴＩＤＯおよびＩＴＴＩＤＯ２に関連する基軸単語の単語附番ＦＵＢＡＮ（複数ある場合はそのリスト）を表す。

図９において、実業務文章（１−１−０）の単語附番３に対応する単語、すなわちＬ１＝１，Ｌ２＝１，Ｌ３＝０，ＦＵＢＡＮ＝３である実業務単語は「義務者」であるが、単語「義務者」は突合対象の基軸文章（１−１−０）中には一度だけ出現している（図７のＬ１＝１，Ｌ２＝１，Ｌ３＝０，ＦＵＢＡＮ＝２８）。また、その重みＯＭＯＭＩは２である。よって、この実業務単語の一致度ＩＴＴＩＤＯは２であり、合致番号ＧＡＴＴＩは２８となる。さらに、単語「義務者」は、突合対象の基軸文章（１−１−０）の同義語としては出現しないので、同義語に対する一致度ＩＴＴＩＤＯ２は０となる。

また、実業務文章（１−１−０）の単語附番１７に対応する実業務単語は「送付」であるが、この単語は突合対象の基軸文章（１−１−０）中には出現せず、ＩＴＴＩＤＯは０となる。ただし、基軸文章（１−１−０）の単語附番２２および３３の基軸単語「発送」には同義語「送付」が関連付けられており、これらと一致する。また、これらの重みはそれぞれ５である。よって、この単語のＩＴＴＩＤＯ２は１０であり、合致番号ＧＡＴＴＩは「２２，３３」となる。
このようにして定義される一致度の総合計、すなわちＩＴＴＩＤＯの合計とＩＴＴＩＤＯ２の合計との和が、実業務文章と基軸文章とが一致する度合いを表す文章類似度となる。

さらに、図１０において、実業務文章（１−１−０）の単語附番３の「義務者」は突合対象の基軸文章（１−２−０）中に一度だけ出現している（図７のＬ１＝１，Ｌ２＝２，Ｌ３＝０，ＦＵＢＡＮ＝１３）。また、その重みＯＭＯＭＩは２である。よって、この実業務単語の一致度ＩＴＴＩＤＯは２であり、合致番号ＧＡＴＴＩは１３となる。さらに、単語「義務者」は、突合対象の基軸文章（１−２−０）の同義語としては出現しないので、同義語に対する一致度ＩＴＴＩＤＯ２は０となる。

また、実業務文章（１−１−０）の単語附番６の「給与」は突合対象の基軸文章（１−１−０）中に一度だけ出現している（図７のＬ１＝１，Ｌ２＝２，Ｌ３＝０，ＦＵＢＡＮ＝１）。また、その重みＯＭＯＭＩは２である。よって、この実業務単語の一致度ＩＴＴＩＤＯは２であり、合致番号ＧＡＴＴＩは１となる。さらに、単語「給与」は、突合対象の基軸文章（１−２−０）の同義語としては出現しないので、同義語に対する一致度ＩＴＴＩＤＯ２は０となる。
このようにして、一致度の総合計、すなわち文章類似度は２＋２＝４となる。

同様にして、基軸文章（１−１−０）と実業務文章（１−２−０）とが突合され、その結果として図１１の内容が作成される。また、基軸文章（１−２−０）と実業務文章（１−２−０）とが突合され、その結果として図１２の内容が作成される。

図１３は、集計ＤＢ２９の構成の例を示す。集計ＤＢ２９は、各基軸文章と各実業務文章との文章類似度を集計したものである。たとえば、基軸文章（１−２−０）と実業務文章（１−１−０）との組み合わせに対しては「４」が記憶されているが、これは図１０の文章類似度が４であることに対応する。

図１４は、対応付け結果ＤＢ３０の構成の例を示す。対応付け結果ＤＢ３０は、各基軸文章に対して、実業務文章のいずれが対応付けられるかを表す。図１５は、図１４の対応関係を概略的に示す。これらの対応関係は、後述するように、図１３の集計ＤＢ２９に基づいて決定される。各実業務文章について、最も大きい文章類似度の値（すなわち、各列における最大値）を与える基軸文章に対して、その実業務文章が対応付けられている。
この例では、たとえば基軸文章（１−１−０）に対しては複数の実業務文章（１−１−０）および（１−２−０）が対応付けられており、また基軸文章（１−５−０）に対してはいずれの実業務文章も対応付けられていない。さらに、基軸文章（１−３−０）および基軸文章（１−４−０）のように、基軸文章ＤＢ２１における前後関係と、それぞれ対応する業務文章の実業務文章ＤＢ２２における前後関係とが逆転する対応付けも含まれる。

以上のように構成される文章対応付けシステム１００の動作を、図１６および図１７に示すフローチャートを用いて説明する。
図１６は、文章対応付けシステム１００が基軸文章ＤＢ２１に基づいて基軸単語ＤＢ２５および基軸単語拡張ＤＢ２６を作成する際の処理の流れを表す。この処理は、たとえば基軸文章ＤＢ２１が作成または変更されるたびに実行される。
まず、文章対応付けシステム１００の演算手段１０は基軸文章ＤＢ２１を読み込み、これによって基軸文章をすべて入力する（ステップＳ１）。

次に、演算手段１０は各基軸文章の項目「ＮＡＩＹＯＵ」に含まれる文字列に対して形態素解析を行い、その結果に基づいて基軸単語ＤＢ２５を作成する（ステップＳ２）。この際、演算手段１０は、各基軸文章における単語の出現順序に基づいて単語附番を採番する。なお形態素解析とは、日本語等の自然言語による文を単語に分解し、各単語の品詞を特定する処理のことである。形態素解析を行う技術は公知であるので、詳細な説明は省略する。

次に、演算手段１０は、基軸単語ＤＢ２５に含まれる各基軸単語について、重みおよび同義語に関する情報の入力を要求して受け付け、この入力に基づいて基軸単語拡張ＤＢ２６を作成する（ステップＳ３）。この入力は、たとえば文章対応付けシステム１００の管理者によってなされる。
ここで、管理者は、突合の妥当性を向上させるため、より重要な単語にはより大きな重みを付加しておく。たとえば、管理者は、図７に示すように、基軸文章（１−１−０）の単語附番２２の単語「発送」に対して重み５を付与する。また、「て」、「に」、「を」、「は」等の、組織の業務とは直接関係がない単語が対応付けに影響を与えないようにするために、文章間の対応付けに利用すべき品詞（たとえば名詞）以外については、重みを０にする。このようにして管理者は、形態素解析で出力された品詞のうち、実業務文章との突合および対応付けの際に利用する品詞を指定するパラメータを入力することができる。
また、管理者は、突合の妥当性を向上させるため、重要な単語には同義語を関連付ける。たとえば、管理者は、図７に示すように、基軸文章（１−１−０）の単語附番２２の単語「発送」に対して同義語「送付」を関連付ける。

図１７は、文章対応付けシステム１００が基軸文章と実業務文章とを対応付ける際の処理の流れを表す。この処理は、たとえば実業務文章ＤＢ２２が作成されるたびに実行される。
まず、文章対応付けシステム１００の演算手段１０は実業務文章ＤＢ２２を読み込み、これによって実業務文章をすべて入力する（ステップＳ１１）。次に、演算手段１０は、各実業務文章の項目「ＮＡＩＹＯＵ」に含まれる文字列に対して形態素解析を行い、その結果に基づいて実業務単語ＤＢ２７を作成する（ステップＳ１２）。この処理は図１６のステップＳ２と同様にしてなされる。

次に、演算手段１０は、基軸単語拡張ＤＢ２６および実業務単語ＤＢ２７を参照し、各基軸文章と各実業務文章とを突合する突合処理を行い、その結果に基づいて突合詳細ＤＢ２８を作成する（ステップＳ１３）。ここで、演算手段１０は、同一のＥＡ番号を有する基軸単語のグループを１つの基軸文章に対応するものとして扱い、同一の業務番号を有する実業務単語のグループを１つの実業務文章に対応するものとして扱い、１つの基軸文章と１つの実業務文章との組み合わせを単位として突合処理を行う。
演算手段１０は、すべての基軸文章とすべての実業務文章との組み合わせに対して、この突合処理を繰り返す。この際、組み合わせのそれぞれについて、図９〜図１２に示すように、単語自体の一致度であるＩＴＴＩＤＯの合計と、同義語に対する一致度であるＩＴＴＩＤＯ２の合計とを算出する。また、これらの合計の和として、その組み合わせに対する文章類似度を算出する。
図７の基軸単語拡張ＤＢ２６の例では名詞のみに０でない重みが与えられているので、演算手段１０は、基軸文章に含まれる名詞と、実業務文章に含まれる名詞とが一致する度合いとして、文章類似度を算出することになる。

次に、演算手段１０は、突合詳細ＤＢ２８の結果を集計し、集計ＤＢ２９を作成する（ステップＳ１４）。たとえば、図１０に示される、基軸文章（１−２−０）と基軸文章（１−１−０）と文章類似度は４であるので、集計ＤＢ２９においてこれに対応するフィールド、すなわちＥＡ番号「Ｌ１＝１，Ｌ２＝２，Ｌ３＝０」の行、業務番号「Ｌ１＝１，Ｌ２＝１，Ｌ３＝０」の列のフィールドの値は４となる。
このように、すべての突合結果について、その結果（文章類似度）を集計して、集計ＤＢ２９を作成する。

次に、演算手段１０は、集計ＤＢ２９に基づいて文章の対応付けを行い、対応付け結果ＤＢ３０を作成する（ステップＳ１５）。ここで、演算手段１０は、各実業務文章について、最も大きい文章類似度の値（すなわち、集計ＤＢ２９の各列における最大値）を求め、その最大値を与える基軸文章に対して、その実業務文章を対応付ける。
たとえば図１３において、破線で囲んだ値が各列の最大値であるとすると、実業務文章（１−１−０）および実業務文章（１−２−０）はともに基軸文章（１−１−０）に対応付けられ、実業務文章（１−３−０）は基軸文章（１−２−０）に対応付けられることになる。このようにして、演算手段１０は文章類似度に基づいて対応付けを行い、これによって対応付け結果ＤＢ３０を作成する。
なお、この対応付けは、文章類似度の最大値に基づいてなされるのではなく、文章類似度が所定の閾値以上かどうかに基づいて行われてもよい。すなわち、ある実業務文章を、文章類似度が閾値以上となる基軸文章すべてに対応付けるものであってもよく、また、文章類似度が閾値以上となる基軸文章が存在しない場合には、いずれの基軸文章にも対応付けないものであってもよい。

次に、演算手段１０は、対応付け結果に基づいて出力用のデータを作成し、このデータに基づいて文章対応付けシステム１００の出力部を制御する。この制御に応じて、出力部は対応付け結果を文章対応付けシステム１００の外部に対して出力する（ステップＳ１６）。この出力は、たとえばプリンタ等の印刷装置による印刷処理として実行されるが、ディスプレイ等の表示装置による表示処理として実行されてもよい。

図１８は、対応付け結果の出力の例（ＥＡ資料対応表）を示す。この例では、対応関係が表形式で表され、左側には基軸文章が、右側には対応する実業務文章が表示される。このような表を出力させるために、演算手段１０は、対応付け結果ＤＢ３０に記録されるＥＡ番号と業務番号との対応関係に基づき、まず、基軸文章ＤＢ２１に記録される基軸文章をＥＡ番号により抽出し、実業務文章ＤＢ２２に記録される実業務文章を業務番号により抽出し、次に、抽出した基軸文書と実業務文書とを、ＥＡ番号と業務番号との対応関係に基づいて関連付けてデータ化する。あるいは、演算手段１０は、入力部からＥＡ番号の指定を受け付けて、対応付け結果ＤＢ３０に記録される指定されたＥＡ番号と業務番号との対応関係に基づき、同様にして基軸文書と実業文書とを関連付けてデータ化してもよい。（図１８の例では、ＥＡ番号についてＬ１＝１となる基軸文書、すなわち作業概要の大が個人住民税となる基軸文書と、業務文書との対応付けがなされている。）ここで、演算手段１０は、基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示すものとして、出力用のデータを作成する。
なお、出力用のデータの形式は、たとえば関係型データベースアプリケーションが使用するファイル形式であるが、これは他の形式であってもよく、たとえばＣＳＶ形式、ＨＴＭＬ形式、ＸＭＬ形式、ＰＤＦ形式等であってもよい。

次に、演算手段１０は、文章間の対応関係に基づいて、基軸文章ＤＢ２１に各実業務文章を追加して集積する（ステップＳ１７）。このステップはいわゆる「学習」に相当する。
ここで、演算手段１０は、各実業務文章を、その実業務文章が対応付けられた基軸文章に追加して、基軸文章ＤＢ２１に格納する。すなわち、文章対応付けシステム１００の記憶手段２０は、各基軸文章と、対応付けにおいてその基軸文章に対応付けられたすべての実業務文章とを、それぞれの基軸文章に集積して記憶することになる。

図１９は、この集積の結果として更新された基軸文章ＤＢ２１の構成の例を示す。実業務文章ＤＢ２２に含まれる情報のうち、作業内容を表す項目、すなわち項目ＮＡＩＹＯＵと、作業に関係する法令の箇条番号を表す項目、すなわち項目Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２とにおいて、新たな情報が基軸文章ＤＢ２１に追加されている。ここで、図１９において、図２と比較して新たに追加された部分を破線で囲んで示す。
なお、これ以外の項目において新たな情報が追加されてもよい。また、情報の追加に応じて、基軸文章ＤＢ２１に新たな項目名が追加されてもよい。

次に、演算手段１０は、ステップＳ１７で基軸文章ＤＢ２１に追加された文字列について、ステップＳ２（図１６）と同様の処理を行い、追加された文章に含まれる単語を基軸単語拡張ＤＢ２６に追加する（ステップＳ１８）。すなわち、追加された文章に基づいて基軸単語拡張ＤＢ２６を更新する。
さらに、演算手段１０は、基軸単語拡張ＤＢ２６に追加された単語について、ステップＳ３（図１６）と同様の処理を行い、重みおよび同義語を追加して基軸単語拡張ＤＢ２６を更新する（ステップＳ１９）。
このようにして、図１７の処理が実行されるたびに、文章対応付けシステム１００は実業務文章ＤＢ２２から新たな実業務文章を学習して取り込み、基軸単語拡張ＤＢ２６に新たな基軸単語を追加する。これによって基軸単語拡張ＤＢ２６における基軸文章と実際の業務との関係は現実をよりよく反映するものとなり、次回の対応付け処理においてより精度の高い結果を出すことができる。

以上のように説明される、実施の形態１に係る文章対応付けシステム１００の動作の概要を、図２０を用いてまとめると以下のようになる。
まず、文章対応付けシステム１００の管理者は、総務省のＥＡ資料（図３）をＲＤＢ化し、基軸文章ＤＢ２１を作成する（この処理は文章対応付けシステム１００によって自動的になされてもよい）。文章対応付けシステム１００は、形態素解析によって基軸単語ＤＢ２５を作成する（ステップＳ１，Ｓ２）。さらに、重みおよび同義語の入力を受け付け、基軸単語拡張ＤＢ２６を作成する（ステップＳ３）。

次に、文章対応付けシステム１００の管理者は、自治体の実業務説明文書（図５）をＲＤＢ化し、実業務文章ＤＢ２２を作成する（この処理は文章対応付けシステム１００によって自動的になされてもよい）。文章対応付けシステム１００は、形態素解析によって実業務単語ＤＢ２７を作成する（ステップＳ１１，Ｓ１２）。
文章対応付けシステム１００は、基軸文章と実業務文章との組み合わせのそれぞれについて、突合を行い文章類似度を算出し（ステップＳ１３）、文章類似度を集計し（ステップＳ１４）、文章類似度の大きさから突合の結果を判断して対応付けを行うとともに対応付け結果ＤＢを格納する（ステップＳ１５）。さらに対応付けの結果をＥＡ資料対応表（図１８）として出力し（ステップＳ１６）、実業務文章をそれぞれ対応付けられた基軸文章に集積して学習する（ステップＳ１７）。そして集積された単語について基軸単語ＤＢ２５および基軸単語拡張ＤＢ２６を更新する（ステップＳ１８，Ｓ１９）。

このように、この発明の実施の形態１に係る文章対応付けシステム１００は、文章間の対応付けを行う、文章対応付けシステムであって、組織の業務の内容を表す複数の実業務文章と、対応付けの基軸となる複数の基軸文章とを記憶する、記憶手段と、実業務文章のそれぞれについて、基軸文章のいずれかへの対応付けを行う、演算手段とを備え、組織の業務に関連する文章の対応付けを、複数の基軸文章と、複数の実業務文章との間で実行することができる。また、基軸文章との対応付けが完了した実業務文章を、基軸文章の一部として集積し、これによって学習することができる。このため、文章対応付けシステム１００は、組織の業務に関連する文章の対応付けを精度よく実行することができる。また、実施の形態１に係る文章対応付けプログラムは、コンピュータを文章対応付けシステム１００として機能させるので、組織の業務に関連する文章の対応付けを、複数の文章間で実行することができる。

学習によって得られる効果の例を、以下に説明する。
図２の基軸文章ＤＢ２１において、基軸文章（１−２−０）の作業内容を表す項目（ＮＡＩＹＯＵ）には、「給報」という用語が含まれている。この用語は「給与支払報告書」の略語であるが、コンピュータによる一般的な形態素解析では、このような略語は必ずしも適切には処理されない。たとえば図６の基軸単語ＤＢ２５では、この用語は、ＥＡ番号（１−２−０）の単語附番４の「給」という動詞と、単語附番５の「報」という接尾辞の組み合わせとして誤って解析されている。
また、図４の実業務文章ＤＢ２２において、実業務文章（１−４−０）の作業内容を表す項目（ＮＡＩＹＯＵ）には、「給与支払報告書」という用語が含まれている。この用語は複合語として一つの文書を示すものであり、一まとまりの用語として扱うべきであるが、コンピュータによる一般的な形態素解析では、このような複合語は必ずしも適切には処理されない。たとえば図８の実業務単語ＤＢ２７では、この用語は、業務番号（１−４−０）の単語附番５〜７の「給与」「支払」「報告書」という３つの名詞に分割されている。
このように、基軸文章（１−２−０）および実業務文章（１−４−０）は、実質的にはいずれも「給与支払報告書」という同一の文書に関する処理を含むものであり、これが文章類似度の算出において考慮されるべきであるにもかかわらず、それぞれ形態素解析において適切な処理がなされず、結果としてこの用語は突合の際に一致しないものとなる。このように、学習されない状態では、文章類似度の値は必ずしも最適なものとはならない。

ところが、実施の形態１に係る文章対応付けシステム１００は、基軸文章との対応付けが完了した実業務文章を、基軸文章の一部として集積し、これによって学習を行う。上述の例では、基軸文章（１−２−０）および実業務文章（１−４−０）は、「給与支払報告書」という用語以外の単語による一致の度合いが大きいため（または、実施の形態２において後述する、関係法令箇条番号を表す項目、入力情報を表す項目、出力情報を表す項目等いずれかの一致の度合いが大きいため）、結果として対応付けられ、図１９の基軸文章（１−２−０）に示すように１つの基軸文章として集積される。これによって、集積された後の基軸文章は、作業内容を表す項目（ＮＡＩＹＯＵ）に、「給報」という略語（または「給」という動詞および「報」という接尾辞）と、「給与」「支払」「報告書」という３つの名詞とを両方とも含む。したがって、新たな実業務文章として、「給報」という略語を使用した文章が入力された場合であっても、「給与支払報告書」という複合語を使用した文章が入力された場合であっても、少なくともいずれか一方が一致することになり、文章類似度がより適切に算出される。
このように、文章対応付けシステム１００は、学習を行うことによって、また学習を繰り返すことによって、文章類似度をより適切に算出することができる。

上述の実施の形態１では、単語の重みは品詞に基づいて決定されており、名詞の重みは０でない値であり、名詞以外の重みは０である。変形例として、単語の重みは品詞に基づかず、他の方法で決定されてもよい。
また、文章対応付けシステム１００は、ステップＳ３およびステップＳ１９において基軸単語拡張ＤＢ２６を作成または更新する際に、管理者からの入力を必要とする。変形例として、文章対応付けシステム１００は基軸単語拡張ＤＢ２６を自動的に作成または更新するものであってもよい。
この場合、たとえば文章対応付けシステム１００は、名詞には重み「１」を付与し、その他の品詞には重みを付与しないものであってもよい。また、同義語を一切付与しないものであってもよい。このようにすると、外部からの入力を必要としないので、作業手順を簡素化することができる。
また、文章対応付けシステム１００の記憶手段２０は、単語ごとに付与されるべき重みと同義語とを定義した辞書ファイルを、あらかじめ格納していてもよい。この場合、文章対応付けシステム１００は、この辞書ファイルに基づき、自動的に基軸単語拡張ＤＢ２６を作成または更新することができる。

基軸文章および実業務文章は、自治体以外の組織の業務に関連するものであってもよく、たとえば会社の業務に関連するものであってもよい。また、組織の業務に直接関連しないものであってもよく、複数の文章の間で対応付けを行う用途であればどのような文章に対しても文章対応付けシステム１００を使用することができる。

上述の実施の形態１では、すべてのＤＢが単一のコンピュータである文章対応付けシステム１００の記憶手段２０に格納される。変形例として、文章対応付けシステムは複数のコンピュータによって構成されてもよく、それぞれのＤＢが複数のコンピュータに分散して設けられてもよい。たとえば、ステップＳ２およびステップＳ１２における形態素解析処理と、ステップＳ１３における突合処理とが、異なるコンピュータの異なる演算手段によって実行されてもよい。

実施の形態２．
実施の形態２は、実施の形態１において、基軸文章ＤＢ２１および実業務文章ＤＢ２２の項目ＮＡＩＹＯＵだけでなく、その他の項目に含まれる情報も使用して文章の対応付けを行う構成としたものである。以下、実施の形態１との相違点を説明する。

実施の形態１では、作業内容を表す項目（ＮＡＩＹＯＵ）に含まれる単語に基づいて、基軸単語拡張ＤＢ２６および実業務単語ＤＢ２７からなる組が作成される。実施の形態２に係る文章対応付けシステム（図示せず）の演算手段は、これらに加え、これらと同様の構成を有するＤＢの組を、関係法令箇条番号を表す項目（Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２）についても作成し、記憶手段はこれらを格納する。すなわち、記憶手段は、基軸法令ＤＢおよび実業務法令ＤＢを格納する。
図２１は、実業務法令ＤＢの構成の例を示す。実業務法令単語ＤＢは、実業務文章のそれぞれに関連する法令箇条番号を表すものである。この例では、たとえば実業務文章（１−１−０）に対して第３１７条の６第１項が関連付けられている。なお、基軸法令ＤＢも同様の構成を有する。

同様にして、入力情報を表す項目（ＩＮＰＵＴ）についてもＤＢの組が作成され、出力情報を表す項目（ＯＵＴＰＵＴ）についてもＤＢの組が作成される。すなわち、記憶手段は、基軸入力ＤＢ、実業務入力ＤＢ、基軸出力ＤＢ、および、実業務出力ＤＢを格納する。なお、実施の形態１と異なり、実業務文章ＤＢ２２も基軸文章ＤＢ２１と同様の項目ＩＮＰＵＴおよびＯＵＴＰＵＴを含むものとする。
図２２は、基軸入力ＤＢの構成の例を示す。基軸入力ＤＢは、図２の基軸文章ＤＢ２１の項目ＩＮＰＵＴから所定の規則により抽出される文字列に基づいて作成される。たとえば、基軸文章（１−２−０）に対応する入力情報を表す項目（ＩＮＰＵＴ）からは、「・」という記号と改行を表す情報とで囲まれた「給与支払報告書」という文字列と、「住民税申告書」という文字列と、「委任状」という文字列に基づいて、図２２のＥＡ番号（１−２−０）で示される３行が作成される。なお、実業務入力ＤＢ、基軸出力ＤＢ、および、実業務出力ＤＢも同様の構成を有する。
さらに、実施の形態１では、基軸単語ＤＢに対して基軸単語拡張ＤＢが作成されるように、実施の形態２では、基軸入力ＤＢに対して基軸入力拡張ＤＢが作成され、基軸出力ＤＢに対して基軸出力拡張ＤＢが作成される。基軸入力拡張ＤＢは、基軸入力ＤＢの各文字列について、項目名ＯＭＯＭＩおよびＤＯＵＧＩＧＯで表される情報を関連付けて記憶する。ＯＭＯＭＩは、文章対応付けシステムが文章の対応付けを決定する際にその文字列がいかなる重みを持つかを表す項目である。ＤＯＵＧＩＧＯは、その文字列と同一の意味または類似した意味を持つ文字列（またはそのような文字列のリスト）を表す項目である。基軸出力拡張ＤＢも、同様の構成を有する。実施の形態２に係る演算手段は、ステップＳ３において、さらに基軸入力拡張ＤＢおよび基軸出力拡張ＤＢの、重みおよび同義語に関する情報の入力を受け付けて設定する。または、演算手段は、基軸入力拡張ＤＢおよび基軸出力拡張ＤＢの、すべての重みに所定の値を設定し、すべての同義語を設定しなくてもよい。

実施の形態２に係る演算手段は、ステップＳ１３において突合詳細ＤＢ２８を作成する際に、作業内容を表す項目（ＮＡＩＹＯＵ）の突合、すなわち実施の形態１において行われる、基軸単語拡張ＤＢ２６と実業務単語ＤＢ２７との突合だけでなく、関係法令箇条番号を表す項目（Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２）、入力を表す項目（ＩＮＰＵＴ）、および、出力を表す項目（ＯＵＴＰＵＴ）の突合もそれぞれ行う。

たとえば、関係法令箇条番号を表す項目の突合では、基軸法令ＤＢおよび実業務法令ＤＢを用いて突合が行われる。この突合では、基軸文章と実業務文章との組み合わせごとに、関係法令箇条番号が完全に一致するかどうかが判定される。たとえば、基軸文章が第３１７条の６第２項に関連付けられており、実業務文章が第３１７条の６第１項に関連付けられている場合は、関係法令箇条番号の一部しか一致しないので、この基軸文章と実業務文章とは類似しないものと判定され、その組み合わせの文章類似度は０となる。関係法令箇条番号が完全に一致する場合は、基軸文章と実業務文章とは類似するものと判定され、その組み合わせの文章類似度は０でない所定の値となる。

また、入力情報を表す項目（ＩＮＰＵＴ）の突合では、基軸入力拡張ＤＢおよび実業務入力ＤＢを用いて突合が行われる。実施の形態１で、文章の組み合わせごとに単語の一致度が判定される方法と同様にして、実施の形態２では、文章の組み合わせごとに文字列の一致度が判定される。そして、実施の形態１と同様にして、実施の形態２でも、一致度の総合計から文章類似度を算出する。出力情報を表す項目（ＯＵＴＰＵＴ）の突合についても同様である。

以上のようにして、作業内容を表す項目（ＮＡＩＹＯＵ）の突合、関係法令箇条番号を表す項目（Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２）の突合、入力を表す項目（ＩＮＰＵＴ）の突合、および、出力を表す項目（ＯＵＴＰＵＴ）の突合が行われ、それぞれにおいて文章間の文章類似度が算出される。この文章類似度は、文章の組み合わせごとに合計された後、実施の形態１のステップＳ１５（図１７）と同様の最終的な対応付けに用いられる。
このように、実施の形態２に係る演算手段は、業務の処理内容を表す文字列だけでなく、業務の入力または出力となる情報の名称を表す文字列と、業務に関連する法令の箇条番号とにも基づいて対応付けを行う。

このように、実施の形態２では、様々な情報を含む様々な項目に基づいて対応付けを行うので、対応付けの精度をより向上させることが可能である。
また、実施の形態２では、組織の性質または業務の性質に応じて項目ごとに重みを変化させることで、対応付けの精度をより向上させることができる。たとえば、自治体のように法律に関係の深い組織の業務に対しては、関係法令箇条番号を表す項目（Ｊ１，Ｊ２，Ｋ１，Ｋ２，Ｇ１，Ｇ２）に含まれる単語（すなわち箇条番号）に対して、他の項目に含まれる単語より大きい重みを付与することで、精度をより向上させることが可能である。
なお、箇条番号は単なる数値であり、文章表現が一般に含むような曖昧性を持たないので、さらに精度が向上する可能性がある。

実施の形態２において、さらに他の項目に基づいて対応付けを行ってもよい。たとえば、業務に関連する法令の名称を表す項目、業務に関連する外部組織の名称（「税務署」等）を表す項目、業務に関連する組織内の部署名（「住民課」「税務課」等）を表す項目、業務を実施する実施時期や実施月（「４月」等）を表す項目、等が考えられる。また、とくに自治体の税業務を想定する場合、業務に関連する税の名称を表す項目に基づいて対応付けを行うようにすれば、さらに精度が向上する可能性がある。
また、実施の形態２において、実施の形態１と同様の変形を施すことができる。

１０演算手段、２０記憶手段、２１基軸文章ＤＢ、２２実業務文章ＤＢ、２５基軸単語ＤＢ、２６基軸単語拡張ＤＢ、２７実業務単語ＤＢ、２８突合詳細ＤＢ、２９集計ＤＢ、３０結果ＤＢ、１００文章対応付けシステム。

Claims

文章間の対応付けを行う、文章対応付けシステムであって、
前記対応付けの基軸となる複数の基軸文章と、前記基軸文章に対して対応付けを行なう対象となる複数の実業務文章とを記憶する、記憶手段と、
前記実業務文章のそれぞれについて、前記基軸文章のいずれかへの対応付けを行う、演算手段と
を備え、
前記実業務文章はそれぞれ、その実業務文章を特定するための業務番号と、その実業務文章に対応する作業の処理内容を表す実業務文字列とを含み、
前記基軸文章はそれぞれ、その基軸文章を特定するための番号と、その基軸文章に対応する作業の処理内容を表す基軸文字列とを含み、
前記演算手段は、前記基軸文字列および前記実業務文字列のそれぞれに含まれる単語を識別し、
前記演算手段は、前記基軸文字列に含まれる基軸単語と、前記実業務文字列に含まれる実業務単語とが一致する度合いに基づいて、基軸文章を特定するための前記番号と前記業務番号とを用いて前記対応付けを行い、
前記演算手段は、出力用のデータを作成し、
前記出力用のデータは、前記基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示す、文章対応付けシステム。
前記演算手段は、前記基軸単語のそれぞれについて定義される重みに基づいて前記対応付けを行う、請求項１に記載の文章対応付けシステム。
前記演算手段は、前記実業務文字列および前記基軸文字列のそれぞれについて、形態素解析を行って前記実業務単語および前記基軸単語を取得し、
前記演算手段は、前記実業務文字列と前記基軸文字列との組み合わせのそれぞれについて、前記実業務単語と、前記基軸単語またはその同義語とが一致する回数を算出し、
前記演算手段は、前記組み合わせのそれぞれについて、前記一致する回数と、一致した基軸単語について定義された前記重みとを乗算して、各実業務単語の一致度を算出し、
前記演算手段は、前記組み合わせのそれぞれについて、すべての実業務単語の前記一致度の総和を算出し、前記総和に基づいて、その組み合わせにおける前記一致する度合いを文章類似度として算出し、
前記演算手段は、前記実業務文字列のそれぞれを、最も大きい前記文章類似度を与える前記基軸文章に対して、または、前記文章類似度が閾値以上となる前記基軸文章すべてに対して、対応付ける、請求項２に記載の文章対応付けシステム。
前記演算手段は、前記基軸単語が名詞である場合にはその基軸単語の前記重みを１とし、それ以外の場合にはその基軸単語の前記重みを０とし、
前記記憶手段は、複数の基軸単語について同義語を定義した辞書ファイルを記憶する、請求項２または３に記載の文章対応付けシステム。
前記演算手段は、
前記業務の入力または出力となる情報の名称を表す文字列と、
前記業務に関連する法令の箇条番号と
に基づいて前記対応付けを行う、請求項１〜４のいずれか一項に記載の文章対応付けシステム。
前記記憶手段は、１つの基軸文章と、前記対応付けにおいてその基軸文章に対応付けられたすべての実業務文章とを、前記１つの基軸文章に集積して記憶する、請求項１〜５のいずれか一項に記載の文章対応付けシステム。
前記実業務文章は自治体の業務の内容を表すものである、請求項１〜６のいずれか一項に記載の文章対応付けシステム。
コンピュータを、請求項１〜７のいずれか一項に記載の文章対応付けシステムとして機能させるための文章対応付けプログラム。