JP2011233164A - 文章対応付けシステムおよび文章対応付けプログラム - Google Patents

文章対応付けシステムおよび文章対応付けプログラム Download PDF

Info

Publication number
JP2011233164A
JP2011233164A JP2011159799A JP2011159799A JP2011233164A JP 2011233164 A JP2011233164 A JP 2011233164A JP 2011159799 A JP2011159799 A JP 2011159799A JP 2011159799 A JP2011159799 A JP 2011159799A JP 2011233164 A JP2011233164 A JP 2011233164A
Authority
JP
Japan
Prior art keywords
sentence
basic
actual business
word
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011159799A
Other languages
English (en)
Other versions
JP5312531B2 (ja
Inventor
Yoshitaka Komiya
禎崇 古宮
Takamichi Akima
孝道 秋間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2011159799A priority Critical patent/JP5312531B2/ja
Publication of JP2011233164A publication Critical patent/JP2011233164A/ja
Application granted granted Critical
Publication of JP5312531B2 publication Critical patent/JP5312531B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】実業務に関連する文章に対して、文章間の対応付けを行う際に、複数の文章間で対応付けを実行する、文章対応付けシステムおよび文章対応付けプログラムを提供する。
【解決手段】文章対応付けシステム100は、実業務文章DB22に含まれる実業務文章を、基軸文章DB21に含まれる基軸文章と対応付ける。この際、基軸文章に含まれる単語と、実業務文章に含まれる単語とが一致する度合いとして、文章類似度を算出する。さらに、各実業務文章を、それぞれ最大の文章類似度を与える基軸文章に対して対応付ける。その後、対応付けが完了した実業務文章を、基軸文章の一部として集積し、これによって学習する。
【選択図】図20

Description

本発明は、文章間の対応付けを行うシステムに関し、とくに、業務に関連する文章を扱うものに関する。
自治体や会社等の組織において、業務の内容および手順や、情報システムの構成を最適化するための設計手法として、様々なものが知られている。たとえば、EA(エンタープライズアーキテクチャ)は、業務およびシステムについて現状(AsIs)とあるべき姿(ToBe)とを整理し、さらに、あるべき姿の実現を目指した業務・システムの改善方策を段階的に実施していくことで、業務の標準化・効率化を図ることを目的とするものである。
たとえば自治体の業務については、取り纏め組織である総務省が業務統一のベースとして自治体EAの参照モデルを作成し、これを自治体に提示して業務改善するよう指導を行っている。自治体はこの参照モデルを雛型にEA分析を実施し、業務フローの統一を目指している。この参照モデルの様式は、インターネット上で非特許文献1に開示される。
このような手法において、現状をどのように最適化するかを検討するためには、現状とあるべき姿との対応関係が明確に把握されている必要がある。このため、たとえばEAにおける業務の分析では、現状の業務とあるべき姿の業務とを文章で記述し、それぞれの文章を対応付ける作業が行われる。
このような文章間の対応付けに応用可能な技術の例として、特許文献1に記載される検索システムが挙げられる。この検索システムは、任意に入力される例題文書を、データベースに登録された文書のいずれかに対応付けるものである。
また、文章でなく一般的な知識を表すデータを分類するとともに、分類の結果を学習する技術の例として、特許文献2に記載される知識処理システムが挙げられる。
特開2003−281186号公報 特開平5−143342号公報
総務省、「自治体EA業務・システム刷新化の手引き」、[online]、2006年、総務省、[平成20年3月27日検索]、インターネット<URL:http://www.soumu.go.jp/denshijiti/system_tebiki/hyouki/gyomu/2a-4-yokenteigi.html>
しかしながら、従来の技術では、業務に関連する文章の対応付けを、複数の文章間で実行するシステムを構築することができないという問題があった。
たとえば、特許文献1には複数の例題文書を扱うことは明記されていない。
また、特許文献2の技術では、段落番号[0054]等に記載されるように、適したフォーマットのデータを入力する必要がある。すなわち、業務内容を記述した、自然言語による文章を、曖昧性を排除したフォーマットに変換するために、高度な知識を有する管理者の作業が必要となる。このため、特許文献2の技術を、業務の内容を表す文章の処理に応用することは困難である。
この発明は、このような問題点を解決するためになされたものであり、業務に関連する文章の対応付けを、複数の文章間で実行する、文章対応付けシステムおよび文章対応付けプログラムを提供することを目的とする。
上述の問題点を解決するため、この発明に係る文章対応付けシステムは、文章間の対応付けを行う、文章対応付けシステムであって、対応付けの基軸となる複数の基軸文章と、基軸文章に対して対応付けを行なう対象となる複数の実業務文章とを記憶する、記憶手段と、実業務文章のそれぞれについて、基軸文章のいずれかへの対応付けを行う、演算手段とを備え、実業務文章はそれぞれ、その実業務文章を特定するための業務番号と、その実業務文章に対応する作業の処理内容を表す実業務文字列とを含み、基軸文章はそれぞれ、その基軸文章を特定するための番号と、その基軸文章に対応する作業の処理内容を表す基軸文字列とを含み、演算手段は、基軸文字列および実業務文字列のそれぞれに含まれる単語を識別し、演算手段は、基軸文字列に含まれる基軸単語と、実業務文字列に含まれる実業務単語とが一致する度合いに基づいて、業務番号と基軸文章を特定するための番号とを用いて対応付けを行い、演算手段は、出力用のデータを作成し、出力用のデータは、基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示す。
演算手段は、単語のそれぞれについて定義される重みに基づいて対応付けを行ってもよい。
演算手段は、実業務文字列および基軸文字列のそれぞれについて、形態素解析を行って実業務単語および基軸単語を取得し、演算手段は、実業務文字列と基軸文字列との組み合わせのそれぞれについて、実業務単語と、基軸単語またはその同義語とが一致する回数を算出し、演算手段は、組み合わせのそれぞれについて、一致する回数と、一致した基軸単語について定義された重みとを乗算して、各実業務単語の一致度を算出し、演算手段は、組み合わせのそれぞれについて、すべての実業務単語の一致度の総和を算出し、総和に基づいて、その組み合わせにおける一致する度合いを文章類似度として算出し、演算手段は、実業務文字列のそれぞれを、最も大きい文章類似度を与える基軸文章に対して、または、文章類似度が閾値以上となる基軸文章すべてに対して、対応付けてもよい。
演算手段は、基軸単語が名詞である場合にはその基軸単語の重みを1とし、それ以外の場合にはその基軸単語の重みを0とし、記憶手段は、複数の基軸単語について同義語を定義した辞書ファイルを記憶してもよい。
演算手段は、業務の入力または出力となる情報の名称を表す文字列と、業務に関連する法令の箇条番号とに基づいて対応付けを行ってもよい。
記憶手段は、1つの基軸文章と、対応付けにおいてその基軸文章に対応付けられたすべての実業務文章とを、1つの基軸文章に集積して記憶してもよい。
実業務文章は自治体の業務の内容を表すものであってもよい。
この発明に係る文章対応付けプログラムは、コンピュータを、上述の文章対応付けシステムとして機能させる。
この発明に係る文章対応付けシステムは、文章間の対応付けを行う、文章対応付けシステムであって、対応付けの基軸となる複数の基軸文章と、基軸文章に対して対応付けを行なう対象となる複数の実業務文章とを記憶する、記憶手段と、実業務文章のそれぞれについて、基軸文章のいずれかへの対応付けを行う、演算手段とを備え、実業務文章はそれぞれ、その実業務文章を特定するための業務番号と、その実業務文章に対応する作業の処理内容を表す実業務文字列とを含み、基軸文章はそれぞれ、その基軸文章を特定するための番号と、その基軸文章に対応する作業の処理内容を表す基軸文字列とを含み、演算手段は、基軸文字列および実業務文字列のそれぞれに含まれる単語を識別し、演算手段は、基軸文字列に含まれる基軸単語と、実業務文字列に含まれる実業務単語とが一致する度合いに基づいて、業務番号と基軸文章を特定するための番号とを用いて対応付けを行い、演算手段は、出力用のデータを作成し、出力用のデータは、基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示すので、基軸文章との対応付けが完了した実業務文章を、基軸文章の一部として集積して記憶し、これによって学習し、組織の業務に関連する文章の対応付けを、複数の文章間で実行することができる。
また、この発明に係る文章対応付けプログラムは、コンピュータを、上述の文章対応付けシステムとして機能させるので、組織の業務に関連する文章の対応付けを、複数の文章間で実行することができる。
本発明に係る文章対応付けシステムの構成を示す図である。 図1の基軸文章DBの構成の例を示す図である。 図2の基軸文章DBの元となる表の例を示す図である。 図1の実業務文章DBの構成の例を示す図である。 図4の実業務文章DBの元となる表の例を示す図である。 図1の基軸単語DBの構成の例を示す図である。 図1の基軸単語拡張DBの構成の例を示す図である。 図1の実業務単語DBの構成の例を示す図である。 図1の突合詳細DBの構成の例を示す図である。 図1の突合詳細DBの構成の例を示す図である。 図1の突合詳細DBの構成の例を示す図である。 図1の突合詳細DBの構成の例を示す図である。 図1の集計DBの構成の例を示す図である。 図1の対応付け結果DBの構成の例を示す図である。 図14の対応関係を概略的に示す図である。 図1の文章対応付けシステムが、基軸単語DBおよび基軸単語拡張DBを作成する際の処理の流れを表すフローチャートである。 図1の文章対応付けシステムが、基軸文章と実業務文章とを対応付ける際の処理の流れを表すフローチャートである。 図1の文章対応付けシステムによる、対応付け結果の出力の例を示す図である。 図1の集積の結果として更新された基軸文章DBの構成の例を示す図である。 図1の文章対応付けシステムの動作の概要を説明する図である。 本発明の実施の形態2に係る実業務法令DBの構成の例を示す図である。 本発明の実施の形態2に係る基軸入力DBの構成の例を示す図である。
以下、この発明の実施の形態を添付図面に基づいて説明する。
実施の形態1.
図1に、本発明に係る文章対応付けシステム100の構成を示す。文章対応付けシステム100は、外部から入力される複数の文章に基づいて、文章間の対応付けを行うシステムである。
文章対応付けシステム100は周知のコンピュータとしての構成を有し、演算を行う演算手段10と、情報を格納する記憶手段20とを備える。また、図示しないが、文章対応付けシステム100は、外部からのデータの入力を受け取る入力部と、外部に対してデータを出力する出力部とを有する。演算手段10はCPU(中央処理装置)を含み、記憶手段20はメモリおよびHDD(ハードディスクドライブ)を含み、入力部はキーボードおよびマウスを含み、出力部はディスプレイおよびプリンタを含む。また、文章対応付けシステム100は、通信ネットワークに対する入力装置と出力装置とを兼ねるネットワークインタフェース(図示せず)を備える。
また、図示しないが、記憶手段20には、文章対応付けシステム100の動作を規定する文章対応付けプログラムが格納されている。コンピュータである文章対応付けシステム100は、この文章対応付けプログラムを実行することによって、本明細書に記載する機能を実現する。
記憶手段20は、DB(データベース)として、基軸文章DB21、実業務文章DB22、基軸単語DB25、基軸単語拡張DB26、実業務単語DB27、突合詳細DB28、集計DB29、および対応付け結果DB30を記憶し格納する。これらのDBは、たとえばRDB(関係型データベース)として構築されるが、他の形式で構築されてもよい。
図2に、基軸文章DB21の構成の例を示す。図2の各行が1つの基軸文章に対応する。これらの基軸文章は、組織の業務の内容を表すものである。また、これらの基軸文章は、文章対応付けシステム100が文章間の対応付けを行う際の基軸となるものである。すなわち、文章対応付けシステム100は、他の文章が、この基軸文章のいずれに対応するかを決定することにより、文章間の対応付けを行う。
基軸文章DB21は、各基軸文章について、項目名L1,L2,L3,SA1,SA2,SA3,NAIYOU,INPUT,OUTPUT,REF,METHOD,J1,J2,K1,K2,G1,G2で表される情報を記憶する。
L1,L2,L3は、その基軸文章を特定するための情報としてのEA番号を表す項目である。たとえば、L1は大項目の分類、L2は中項目の分類、L3は小項目の分類を、それぞれ表す。例として、図2の最上行の基軸文章は、L1=1、L2=1、L3=0という値の組み合わせによって特定される。なお、以下の説明において、基軸文章を特定する際、3つのEA番号を順に記して「基軸文章(1−1−0)」のように表記する。
SA1,SA2,SA3は、作業概要すなわちその基軸文章の要点を表す項目である。これらはたとえばそれぞれ大項目、中項目、小項目として、EA番号に対応する項目を表す。
NAIYOUはその基軸文章に対応する作業の内容を表す項目である。この項目はたとえば自治体の業務の処理内容を表す文字列を含む。
INPUTおよびOUTPUTは、その作業を行う際の入力および出力となる資料を特定する情報を表す項目である。これらは、たとえば資料の名称を表す文字列を含む。図2の例では、基軸文章(1−1−0)は、自治体の担当者が、「課税対象者情報」と名付けられた資料に基づいて、たとえば「総括表」と名付けられた資料を作成するという作業内容を表す。
REFは、その基軸文章に関連するその他の情報を表す項目である。
METHODは、その作業の実施方法を表し、手作業を含むか否か、コンピュータシステムによる処理を含むか否か、および、外部委託を含むか否か、を表す項目である。
J1,J2,K1,K2,G1,G2は、作業に関係する法令の箇条番号(関係法令箇条番号)を表す項目であり、この順に、条番、条附番、項番、項附番、号番、号附番に対応する。たとえば第317条の6第1項の場合、J1=317であり、J2=6であり、K1=1となる。なお、この例では基軸文章DB21に含まれる基軸文章すべてが同一の法令(たとえば地方税法)のみに関連するものであるため法令名は記憶されないが、法令名を表す項目が追加で設けられてもよい。
この基軸文章DB21は、たとえば図3に示す表に基づいて作成される。ここで、図3は総務省が規定する自治体EA参照モデルの例である。この参照モデルの様式は上述の非特許文献1に開示されている。また、このモデルに沿って作成された実際のデータ、すなわち図3に示す表の内容は、自治体が個別に総務省に問い合わせることによって入手可能である。
このデータをDBに入力した後、図2の項目名をそれぞれ所定の列に割り振ることで、基軸文章DB21を作成することができる。項目名の割り振りは、たとえば専門の担当者が行うが、あらかじめ決められた規則に従って文章対応付けシステム100が自動的に行ってもよい。
図4に、実業務文章DB22の構成の例を示す。図4の各行が1つの実業務文章に対応する。これらの実業務文章は、組織の業務の内容を表すものである。また、これらの実業務文章は、文章対応付けシステム100が基軸文章に対して対応付けを行う対象となるものである。すなわち、文章対応付けシステム100は、実業務文章のそれぞれについて、上述の基軸文章のいずれかへの対応付けを行う。
実業務文章DB22は、各基軸文章について、項目名L1,L2,L3,SA1,SA2,SA3,NAIYOU,J1,J2,K1,K2,G1,G2で表される情報を記憶する。これらの項目は、上述の基軸文章DB21と同様に、実業務文章に関して、その実業務文章を特定するための情報(業務番号)、実業務文章の作業概要、および作業内容を表す。以下では、基軸文章と同様にして、実業務文章を特定する際に3つの業務番号を順に記して「実業務文章(1−1−0)」のように表記する。
なお、実業務文章DB22は、図4に示される項目に加え、基軸文章DB21と同様のINPUT,OUTPUT,REF,METHODの項目を含んでもよい。
この実業務文章DB22は、たとえば図5に示す表に基づいて作成される。ここで、図5は自治体における実際の作業を記述する表である。このデータをDBに入力した後、図4の項目名をそれぞれ所定の列に割り振ることで、実業務文章DB22を作成することができる。項目名の割り振りは、たとえば専門の担当者が行うが、あらかじめ決められた規則に従って文章対応付けシステム100が自動的に行ってもよい。
図6に、基軸単語DB25の構成の例を示す。基軸単語DB25は、基軸文章に含まれる単語(以下「基軸単語」と称する)それぞれに関連する情報を表すものである。この基軸単語DB25は、基軸文章DB21の所定の項目、たとえばNAIYOUに記憶される文章に含まれる単語に基づいて作成される。図6の例では、図2の基軸文章(1−1−0)および基軸文章(1−2−0)の作業内容に対応する部分のみが示されている。
基軸単語DB25は、各基軸単語について、項目名L1,L2,L3,FUBAN,TANGO,HINSIで表される情報を記憶する。
L1,L2,L3は、基軸文章DB21と同様である。FUBANは、同一の基軸文章に含まれる基軸単語(すなわちEA番号のL1,L2,L3がすべて一致する基軸単語)のそれぞれを互いに識別するために付される数字としての単語附番を表す項目である。TANGOはその基軸単語に対応する文字列を表す項目である。HINSIはその基軸単語の品詞を表す項目である。
図7は、基軸単語拡張DB26の構成の例を示す。基軸単語拡張DB26は、基軸単語DB25に含まれる基軸単語のそれぞれに、さらに付加的な情報を関連付けるものである。なお、図7の例では、図6と同様に、図2の基軸文章(1−1−0)および基軸文章(1−2−0)の作業内容に対応する部分のみが示されている。
基軸単語拡張DB26は、各基軸単語について、基軸単語DB25と同様に、項目名L1,L2,L3,FUBAN,TANGO,HINSIで表される情報を記憶する。さらに、基軸単語拡張DB26は、各基軸単語について、項目名OMOMIおよびDOUGIGOで表される情報を関連付けて記憶する。OMOMIは、文章対応付けシステム100が文章の対応付けを決定する際にその基軸単語がいかなる重みを持つかを表す項目である。DOUGIGOは、その基軸単語と同一の意味または類似した意味を持つ単語(またはそのような単語のリスト)を表す項目である。
なお、図7の例では、品詞(項目名HINSI)が名詞である単語のみに0でない重み(項目名OMOMI)の値が設定され、それ以外の単語については重みがすべて0となっている。
図8は、実業務単語DB27の構成の例を示す。実業務単語DB27は、実業務文章に含まれる単語(以下「実業務単語」と称する)それぞれに関連する情報を表すものである。この実業務単語DB27は、実業務文章DB22の所定の項目、たとえばNAIYOUに記憶される文章に含まれる単語に基づいて作成される。なお、この例では、この項目名「NAIYOU」は、上述の基軸単語DB25の基となる項目名「NAIYOU」と同一である。図8の例では、図4の実業務文章(1−1−0)および実業務文章(1−2−0)の作業内容に対応する部分のみが示されている。
実業務単語DB27は、各実業務単語について、上述の基軸単語DB25と同様に、項目名L1,L2,L3,FUBAN,TANGO,HINSIで表される情報を関連付ける。
図9〜図12は、突合詳細DB28の構成の例を示す。突合詳細DB28は、実業務単語のそれぞれを基軸単語のそれぞれと突合し、これらが一致するかどうかを判定した結果と、その結果に基づいて算出される文章類似度とを表すものである。
この突合の結果は、文章の組み合わせを単位として記憶される。例として、
‐図9は実業務文章(1−1−0)を基軸文章(1−1−0)と突合した結果であり、
‐図10は実業務文章(1−1−0)を基軸文章(1−2−0)と突合した結果であり、
‐図11は実業務文章(1−2−0)を基軸文章(1−1−0)と突合した結果であり、
‐図12は実業務文章(1−2−0)を基軸文章(1−2−0)と突合した結果である。
突合詳細DB28は、各実業務単語に基づいて作成され、上述の実業務単語DB27と同様に、項目名L1,L2,L3,FUBAN,TANGOで表される情報を記憶する。さらに、突合詳細DB28は、各実業務単語について、項目名ITTIDO,ITTIDO2,GATTIで表される情報を関連付けて記憶する。
ITTIDOおよびITTIDO2は、基軸文章に含まれる単語と、実業務文章に含まれる単語とが一致する度合いを表す項目である。このうち、ITTIDOは、その実業務単語と一致する基軸単語の重みOMOMIの合計を表す。ITTIDO2は、その実業務単語が基軸単語の同義語と一致する場合、すなわち基軸単語拡張DB26の項目DOUGIGOに含まれる単語と一致する場合の、その基軸単語の重みOMOMIの合計を表す。GATTIは、その実業務単語と合致した基軸単語、すなわちITTIDOおよびITTIDO2に関連する基軸単語の単語附番FUBAN(複数ある場合はそのリスト)を表す。
図9において、実業務文章(1−1−0)の単語附番3に対応する単語、すなわちL1=1,L2=1,L3=0,FUBAN=3である実業務単語は「義務者」であるが、単語「義務者」は突合対象の基軸文章(1−1−0)中には一度だけ出現している(図7のL1=1,L2=1,L3=0,FUBAN=28)。また、その重みOMOMIは2である。よって、この実業務単語の一致度ITTIDOは2であり、合致番号GATTIは28となる。さらに、単語「義務者」は、突合対象の基軸文章(1−1−0)の同義語としては出現しないので、同義語に対する一致度ITTIDO2は0となる。
また、実業務文章(1−1−0)の単語附番17に対応する実業務単語は「送付」であるが、この単語は突合対象の基軸文章(1−1−0)中には出現せず、ITTIDOは0となる。ただし、基軸文章(1−1−0)の単語附番22および33の基軸単語「発送」には同義語「送付」が関連付けられており、これらと一致する。また、これらの重みはそれぞれ5である。よって、この単語のITTIDO2は10であり、合致番号GATTIは「22,33」となる。
このようにして定義される一致度の総合計、すなわちITTIDOの合計とITTIDO2の合計との和が、実業務文章と基軸文章とが一致する度合いを表す文章類似度となる。
さらに、図10において、実業務文章(1−1−0)の単語附番3の「義務者」は突合対象の基軸文章(1−2−0)中に一度だけ出現している(図7のL1=1,L2=2,L3=0,FUBAN=13)。また、その重みOMOMIは2である。よって、この実業務単語の一致度ITTIDOは2であり、合致番号GATTIは13となる。さらに、単語「義務者」は、突合対象の基軸文章(1−2−0)の同義語としては出現しないので、同義語に対する一致度ITTIDO2は0となる。
また、実業務文章(1−1−0)の単語附番6の「給与」は突合対象の基軸文章(1−1−0)中に一度だけ出現している(図7のL1=1,L2=2,L3=0,FUBAN=1)。また、その重みOMOMIは2である。よって、この実業務単語の一致度ITTIDOは2であり、合致番号GATTIは1となる。さらに、単語「給与」は、突合対象の基軸文章(1−2−0)の同義語としては出現しないので、同義語に対する一致度ITTIDO2は0となる。
このようにして、一致度の総合計、すなわち文章類似度は2+2=4となる。
同様にして、基軸文章(1−1−0)と実業務文章(1−2−0)とが突合され、その結果として図11の内容が作成される。また、基軸文章(1−2−0)と実業務文章(1−2−0)とが突合され、その結果として図12の内容が作成される。
図13は、集計DB29の構成の例を示す。集計DB29は、各基軸文章と各実業務文章との文章類似度を集計したものである。たとえば、基軸文章(1−2−0)と実業務文章(1−1−0)との組み合わせに対しては「4」が記憶されているが、これは図10の文章類似度が4であることに対応する。
図14は、対応付け結果DB30の構成の例を示す。対応付け結果DB30は、各基軸文章に対して、実業務文章のいずれが対応付けられるかを表す。図15は、図14の対応関係を概略的に示す。これらの対応関係は、後述するように、図13の集計DB29に基づいて決定される。各実業務文章について、最も大きい文章類似度の値(すなわち、各列における最大値)を与える基軸文章に対して、その実業務文章が対応付けられている。
この例では、たとえば基軸文章(1−1−0)に対しては複数の実業務文章(1−1−0)および(1−2−0)が対応付けられており、また基軸文章(1−5−0)に対してはいずれの実業務文章も対応付けられていない。さらに、基軸文章(1−3−0)および基軸文章(1−4−0)のように、基軸文章DB21における前後関係と、それぞれ対応する業務文章の実業務文章DB22における前後関係とが逆転する対応付けも含まれる。
以上のように構成される文章対応付けシステム100の動作を、図16および図17に示すフローチャートを用いて説明する。
図16は、文章対応付けシステム100が基軸文章DB21に基づいて基軸単語DB25および基軸単語拡張DB26を作成する際の処理の流れを表す。この処理は、たとえば基軸文章DB21が作成または変更されるたびに実行される。
まず、文章対応付けシステム100の演算手段10は基軸文章DB21を読み込み、これによって基軸文章をすべて入力する(ステップS1)。
次に、演算手段10は各基軸文章の項目「NAIYOU」に含まれる文字列に対して形態素解析を行い、その結果に基づいて基軸単語DB25を作成する(ステップS2)。この際、演算手段10は、各基軸文章における単語の出現順序に基づいて単語附番を採番する。なお形態素解析とは、日本語等の自然言語による文を単語に分解し、各単語の品詞を特定する処理のことである。形態素解析を行う技術は公知であるので、詳細な説明は省略する。
次に、演算手段10は、基軸単語DB25に含まれる各基軸単語について、重みおよび同義語に関する情報の入力を要求して受け付け、この入力に基づいて基軸単語拡張DB26を作成する(ステップS3)。この入力は、たとえば文章対応付けシステム100の管理者によってなされる。
ここで、管理者は、突合の妥当性を向上させるため、より重要な単語にはより大きな重みを付加しておく。たとえば、管理者は、図7に示すように、基軸文章(1−1−0)の単語附番22の単語「発送」に対して重み5を付与する。また、「て」、「に」、「を」、「は」等の、組織の業務とは直接関係がない単語が対応付けに影響を与えないようにするために、文章間の対応付けに利用すべき品詞(たとえば名詞)以外については、重みを0にする。このようにして管理者は、形態素解析で出力された品詞のうち、実業務文章との突合および対応付けの際に利用する品詞を指定するパラメータを入力することができる。
また、管理者は、突合の妥当性を向上させるため、重要な単語には同義語を関連付ける。たとえば、管理者は、図7に示すように、基軸文章(1−1−0)の単語附番22の単語「発送」に対して同義語「送付」を関連付ける。
図17は、文章対応付けシステム100が基軸文章と実業務文章とを対応付ける際の処理の流れを表す。この処理は、たとえば実業務文章DB22が作成されるたびに実行される。
まず、文章対応付けシステム100の演算手段10は実業務文章DB22を読み込み、これによって実業務文章をすべて入力する(ステップS11)。次に、演算手段10は、各実業務文章の項目「NAIYOU」に含まれる文字列に対して形態素解析を行い、その結果に基づいて実業務単語DB27を作成する(ステップS12)。この処理は図16のステップS2と同様にしてなされる。
次に、演算手段10は、基軸単語拡張DB26および実業務単語DB27を参照し、各基軸文章と各実業務文章とを突合する突合処理を行い、その結果に基づいて突合詳細DB28を作成する(ステップS13)。ここで、演算手段10は、同一のEA番号を有する基軸単語のグループを1つの基軸文章に対応するものとして扱い、同一の業務番号を有する実業務単語のグループを1つの実業務文章に対応するものとして扱い、1つの基軸文章と1つの実業務文章との組み合わせを単位として突合処理を行う。
演算手段10は、すべての基軸文章とすべての実業務文章との組み合わせに対して、この突合処理を繰り返す。この際、組み合わせのそれぞれについて、図9〜図12に示すように、単語自体の一致度であるITTIDOの合計と、同義語に対する一致度であるITTIDO2の合計とを算出する。また、これらの合計の和として、その組み合わせに対する文章類似度を算出する。
図7の基軸単語拡張DB26の例では名詞のみに0でない重みが与えられているので、演算手段10は、基軸文章に含まれる名詞と、実業務文章に含まれる名詞とが一致する度合いとして、文章類似度を算出することになる。
次に、演算手段10は、突合詳細DB28の結果を集計し、集計DB29を作成する(ステップS14)。たとえば、図10に示される、基軸文章(1−2−0)と基軸文章(1−1−0)と文章類似度は4であるので、集計DB29においてこれに対応するフィールド、すなわちEA番号「L1=1,L2=2,L3=0」の行、業務番号「L1=1,L2=1,L3=0」の列のフィールドの値は4となる。
このように、すべての突合結果について、その結果(文章類似度)を集計して、集計DB29を作成する。
次に、演算手段10は、集計DB29に基づいて文章の対応付けを行い、対応付け結果DB30を作成する(ステップS15)。ここで、演算手段10は、各実業務文章について、最も大きい文章類似度の値(すなわち、集計DB29の各列における最大値)を求め、その最大値を与える基軸文章に対して、その実業務文章を対応付ける。
たとえば図13において、破線で囲んだ値が各列の最大値であるとすると、実業務文章(1−1−0)および実業務文章(1−2−0)はともに基軸文章(1−1−0)に対応付けられ、実業務文章(1−3−0)は基軸文章(1−2−0)に対応付けられることになる。このようにして、演算手段10は文章類似度に基づいて対応付けを行い、これによって対応付け結果DB30を作成する。
なお、この対応付けは、文章類似度の最大値に基づいてなされるのではなく、文章類似度が所定の閾値以上かどうかに基づいて行われてもよい。すなわち、ある実業務文章を、文章類似度が閾値以上となる基軸文章すべてに対応付けるものであってもよく、また、文章類似度が閾値以上となる基軸文章が存在しない場合には、いずれの基軸文章にも対応付けないものであってもよい。
次に、演算手段10は、対応付け結果に基づいて出力用のデータを作成し、このデータに基づいて文章対応付けシステム100の出力部を制御する。この制御に応じて、出力部は対応付け結果を文章対応付けシステム100の外部に対して出力する(ステップS16)。この出力は、たとえばプリンタ等の印刷装置による印刷処理として実行されるが、ディスプレイ等の表示装置による表示処理として実行されてもよい。
図18は、対応付け結果の出力の例(EA資料対応表)を示す。この例では、対応関係が表形式で表され、左側には基軸文章が、右側には対応する実業務文章が表示される。このような表を出力させるために、演算手段10は、対応付け結果DB30に記録されるEA番号と業務番号との対応関係に基づき、まず、基軸文章DB21に記録される基軸文章をEA番号により抽出し、実業務文章DB22に記録される実業務文章を業務番号により抽出し、次に、抽出した基軸文書と実業務文書とを、EA番号と業務番号との対応関係に基づいて関連付けてデータ化する。あるいは、演算手段10は、入力部からEA番号の指定を受け付けて、対応付け結果DB30に記録される指定されたEA番号と業務番号との対応関係に基づき、同様にして基軸文書と実業文書とを関連付けてデータ化してもよい。(図18の例では、EA番号についてL1=1となる基軸文書、すなわち作業概要の大が個人住民税となる基軸文書と、業務文書との対応付けがなされている。)ここで、演算手段10は、基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示すものとして、出力用のデータを作成する。
なお、出力用のデータの形式は、たとえば関係型データベースアプリケーションが使用するファイル形式であるが、これは他の形式であってもよく、たとえばCSV形式、HTML形式、XML形式、PDF形式等であってもよい。
次に、演算手段10は、文章間の対応関係に基づいて、基軸文章DB21に各実業務文章を追加して集積する(ステップS17)。このステップはいわゆる「学習」に相当する。
ここで、演算手段10は、各実業務文章を、その実業務文章が対応付けられた基軸文章に追加して、基軸文章DB21に格納する。すなわち、文章対応付けシステム100の記憶手段20は、各基軸文章と、対応付けにおいてその基軸文章に対応付けられたすべての実業務文章とを、それぞれの基軸文章に集積して記憶することになる。
図19は、この集積の結果として更新された基軸文章DB21の構成の例を示す。実業務文章DB22に含まれる情報のうち、作業内容を表す項目、すなわち項目NAIYOUと、作業に関係する法令の箇条番号を表す項目、すなわち項目J1,J2,K1,K2,G1,G2とにおいて、新たな情報が基軸文章DB21に追加されている。ここで、図19において、図2と比較して新たに追加された部分を破線で囲んで示す。
なお、これ以外の項目において新たな情報が追加されてもよい。また、情報の追加に応じて、基軸文章DB21に新たな項目名が追加されてもよい。
次に、演算手段10は、ステップS17で基軸文章DB21に追加された文字列について、ステップS2(図16)と同様の処理を行い、追加された文章に含まれる単語を基軸単語拡張DB26に追加する(ステップS18)。すなわち、追加された文章に基づいて基軸単語拡張DB26を更新する。
さらに、演算手段10は、基軸単語拡張DB26に追加された単語について、ステップS3(図16)と同様の処理を行い、重みおよび同義語を追加して基軸単語拡張DB26を更新する(ステップS19)。
このようにして、図17の処理が実行されるたびに、文章対応付けシステム100は実業務文章DB22から新たな実業務文章を学習して取り込み、基軸単語拡張DB26に新たな基軸単語を追加する。これによって基軸単語拡張DB26における基軸文章と実際の業務との関係は現実をよりよく反映するものとなり、次回の対応付け処理においてより精度の高い結果を出すことができる。
以上のように説明される、実施の形態1に係る文章対応付けシステム100の動作の概要を、図20を用いてまとめると以下のようになる。
まず、文章対応付けシステム100の管理者は、総務省のEA資料(図3)をRDB化し、基軸文章DB21を作成する(この処理は文章対応付けシステム100によって自動的になされてもよい)。文章対応付けシステム100は、形態素解析によって基軸単語DB25を作成する(ステップS1,S2)。さらに、重みおよび同義語の入力を受け付け、基軸単語拡張DB26を作成する(ステップS3)。
次に、文章対応付けシステム100の管理者は、自治体の実業務説明文書(図5)をRDB化し、実業務文章DB22を作成する(この処理は文章対応付けシステム100によって自動的になされてもよい)。文章対応付けシステム100は、形態素解析によって実業務単語DB27を作成する(ステップS11,S12)。
文章対応付けシステム100は、基軸文章と実業務文章との組み合わせのそれぞれについて、突合を行い文章類似度を算出し(ステップS13)、文章類似度を集計し(ステップS14)、文章類似度の大きさから突合の結果を判断して対応付けを行うとともに対応付け結果DBを格納する(ステップS15)。さらに対応付けの結果をEA資料対応表(図18)として出力し(ステップS16)、実業務文章をそれぞれ対応付けられた基軸文章に集積して学習する(ステップS17)。そして集積された単語について基軸単語DB25および基軸単語拡張DB26を更新する(ステップS18,S19)。
このように、この発明の実施の形態1に係る文章対応付けシステム100は、文章間の対応付けを行う、文章対応付けシステムであって、組織の業務の内容を表す複数の実業務文章と、対応付けの基軸となる複数の基軸文章とを記憶する、記憶手段と、実業務文章のそれぞれについて、基軸文章のいずれかへの対応付けを行う、演算手段とを備え、組織の業務に関連する文章の対応付けを、複数の基軸文章と、複数の実業務文章との間で実行することができる。また、基軸文章との対応付けが完了した実業務文章を、基軸文章の一部として集積し、これによって学習することができる。このため、文章対応付けシステム100は、組織の業務に関連する文章の対応付けを精度よく実行することができる。また、実施の形態1に係る文章対応付けプログラムは、コンピュータを文章対応付けシステム100として機能させるので、組織の業務に関連する文章の対応付けを、複数の文章間で実行することができる。
学習によって得られる効果の例を、以下に説明する。
図2の基軸文章DB21において、基軸文章(1−2−0)の作業内容を表す項目(NAIYOU)には、「給報」という用語が含まれている。この用語は「給与支払報告書」の略語であるが、コンピュータによる一般的な形態素解析では、このような略語は必ずしも適切には処理されない。たとえば図6の基軸単語DB25では、この用語は、EA番号(1−2−0)の単語附番4の「給」という動詞と、単語附番5の「報」という接尾辞の組み合わせとして誤って解析されている。
また、図4の実業務文章DB22において、実業務文章(1−4−0)の作業内容を表す項目(NAIYOU)には、「給与支払報告書」という用語が含まれている。この用語は複合語として一つの文書を示すものであり、一まとまりの用語として扱うべきであるが、コンピュータによる一般的な形態素解析では、このような複合語は必ずしも適切には処理されない。たとえば図8の実業務単語DB27では、この用語は、業務番号(1−4−0)の単語附番5〜7の「給与」「支払」「報告書」という3つの名詞に分割されている。
このように、基軸文章(1−2−0)および実業務文章(1−4−0)は、実質的にはいずれも「給与支払報告書」という同一の文書に関する処理を含むものであり、これが文章類似度の算出において考慮されるべきであるにもかかわらず、それぞれ形態素解析において適切な処理がなされず、結果としてこの用語は突合の際に一致しないものとなる。このように、学習されない状態では、文章類似度の値は必ずしも最適なものとはならない。
ところが、実施の形態1に係る文章対応付けシステム100は、基軸文章との対応付けが完了した実業務文章を、基軸文章の一部として集積し、これによって学習を行う。上述の例では、基軸文章(1−2−0)および実業務文章(1−4−0)は、「給与支払報告書」という用語以外の単語による一致の度合いが大きいため(または、実施の形態2において後述する、関係法令箇条番号を表す項目、入力情報を表す項目、出力情報を表す項目等いずれかの一致の度合いが大きいため)、結果として対応付けられ、図19の基軸文章(1−2−0)に示すように1つの基軸文章として集積される。これによって、集積された後の基軸文章は、作業内容を表す項目(NAIYOU)に、「給報」という略語(または「給」という動詞および「報」という接尾辞)と、「給与」「支払」「報告書」という3つの名詞とを両方とも含む。したがって、新たな実業務文章として、「給報」という略語を使用した文章が入力された場合であっても、「給与支払報告書」という複合語を使用した文章が入力された場合であっても、少なくともいずれか一方が一致することになり、文章類似度がより適切に算出される。
このように、文章対応付けシステム100は、学習を行うことによって、また学習を繰り返すことによって、文章類似度をより適切に算出することができる。
上述の実施の形態1では、単語の重みは品詞に基づいて決定されており、名詞の重みは0でない値であり、名詞以外の重みは0である。変形例として、単語の重みは品詞に基づかず、他の方法で決定されてもよい。
また、文章対応付けシステム100は、ステップS3およびステップS19において基軸単語拡張DB26を作成または更新する際に、管理者からの入力を必要とする。変形例として、文章対応付けシステム100は基軸単語拡張DB26を自動的に作成または更新するものであってもよい。
この場合、たとえば文章対応付けシステム100は、名詞には重み「1」を付与し、その他の品詞には重みを付与しないものであってもよい。また、同義語を一切付与しないものであってもよい。このようにすると、外部からの入力を必要としないので、作業手順を簡素化することができる。
また、文章対応付けシステム100の記憶手段20は、単語ごとに付与されるべき重みと同義語とを定義した辞書ファイルを、あらかじめ格納していてもよい。この場合、文章対応付けシステム100は、この辞書ファイルに基づき、自動的に基軸単語拡張DB26を作成または更新することができる。
基軸文章および実業務文章は、自治体以外の組織の業務に関連するものであってもよく、たとえば会社の業務に関連するものであってもよい。また、組織の業務に直接関連しないものであってもよく、複数の文章の間で対応付けを行う用途であればどのような文章に対しても文章対応付けシステム100を使用することができる。
上述の実施の形態1では、すべてのDBが単一のコンピュータである文章対応付けシステム100の記憶手段20に格納される。変形例として、文章対応付けシステムは複数のコンピュータによって構成されてもよく、それぞれのDBが複数のコンピュータに分散して設けられてもよい。たとえば、ステップS2およびステップS12における形態素解析処理と、ステップS13における突合処理とが、異なるコンピュータの異なる演算手段によって実行されてもよい。
実施の形態2.
実施の形態2は、実施の形態1において、基軸文章DB21および実業務文章DB22の項目NAIYOUだけでなく、その他の項目に含まれる情報も使用して文章の対応付けを行う構成としたものである。以下、実施の形態1との相違点を説明する。
実施の形態1では、作業内容を表す項目(NAIYOU)に含まれる単語に基づいて、基軸単語拡張DB26および実業務単語DB27からなる組が作成される。実施の形態2に係る文章対応付けシステム(図示せず)の演算手段は、これらに加え、これらと同様の構成を有するDBの組を、関係法令箇条番号を表す項目(J1,J2,K1,K2,G1,G2)についても作成し、記憶手段はこれらを格納する。すなわち、記憶手段は、基軸法令DBおよび実業務法令DBを格納する。
図21は、実業務法令DBの構成の例を示す。実業務法令単語DBは、実業務文章のそれぞれに関連する法令箇条番号を表すものである。この例では、たとえば実業務文章(1−1−0)に対して第317条の6第1項が関連付けられている。なお、基軸法令DBも同様の構成を有する。
同様にして、入力情報を表す項目(INPUT)についてもDBの組が作成され、出力情報を表す項目(OUTPUT)についてもDBの組が作成される。すなわち、記憶手段は、基軸入力DB、実業務入力DB、基軸出力DB、および、実業務出力DBを格納する。なお、実施の形態1と異なり、実業務文章DB22も基軸文章DB21と同様の項目INPUTおよびOUTPUTを含むものとする。
図22は、基軸入力DBの構成の例を示す。基軸入力DBは、図2の基軸文章DB21の項目INPUTから所定の規則により抽出される文字列に基づいて作成される。たとえば、基軸文章(1−2−0)に対応する入力情報を表す項目(INPUT)からは、「・」という記号と改行を表す情報とで囲まれた「給与支払報告書」という文字列と、「住民税申告書」という文字列と、「委任状」という文字列に基づいて、図22のEA番号(1−2−0)で示される3行が作成される。なお、実業務入力DB、基軸出力DB、および、実業務出力DBも同様の構成を有する。
さらに、実施の形態1では、基軸単語DBに対して基軸単語拡張DBが作成されるように、実施の形態2では、基軸入力DBに対して基軸入力拡張DBが作成され、基軸出力DBに対して基軸出力拡張DBが作成される。基軸入力拡張DBは、基軸入力DBの各文字列について、項目名OMOMIおよびDOUGIGOで表される情報を関連付けて記憶する。OMOMIは、文章対応付けシステムが文章の対応付けを決定する際にその文字列がいかなる重みを持つかを表す項目である。DOUGIGOは、その文字列と同一の意味または類似した意味を持つ文字列(またはそのような文字列のリスト)を表す項目である。基軸出力拡張DBも、同様の構成を有する。実施の形態2に係る演算手段は、ステップS3において、さらに基軸入力拡張DBおよび基軸出力拡張DBの、重みおよび同義語に関する情報の入力を受け付けて設定する。または、演算手段は、基軸入力拡張DBおよび基軸出力拡張DBの、すべての重みに所定の値を設定し、すべての同義語を設定しなくてもよい。
実施の形態2に係る演算手段は、ステップS13において突合詳細DB28を作成する際に、作業内容を表す項目(NAIYOU)の突合、すなわち実施の形態1において行われる、基軸単語拡張DB26と実業務単語DB27との突合だけでなく、関係法令箇条番号を表す項目(J1,J2,K1,K2,G1,G2)、入力を表す項目(INPUT)、および、出力を表す項目(OUTPUT)の突合もそれぞれ行う。
たとえば、関係法令箇条番号を表す項目の突合では、基軸法令DBおよび実業務法令DBを用いて突合が行われる。この突合では、基軸文章と実業務文章との組み合わせごとに、関係法令箇条番号が完全に一致するかどうかが判定される。たとえば、基軸文章が第317条の6第2項に関連付けられており、実業務文章が第317条の6第1項に関連付けられている場合は、関係法令箇条番号の一部しか一致しないので、この基軸文章と実業務文章とは類似しないものと判定され、その組み合わせの文章類似度は0となる。関係法令箇条番号が完全に一致する場合は、基軸文章と実業務文章とは類似するものと判定され、その組み合わせの文章類似度は0でない所定の値となる。
また、入力情報を表す項目(INPUT)の突合では、基軸入力拡張DBおよび実業務入力DBを用いて突合が行われる。実施の形態1で、文章の組み合わせごとに単語の一致度が判定される方法と同様にして、実施の形態2では、文章の組み合わせごとに文字列の一致度が判定される。そして、実施の形態1と同様にして、実施の形態2でも、一致度の総合計から文章類似度を算出する。出力情報を表す項目(OUTPUT)の突合についても同様である。
以上のようにして、作業内容を表す項目(NAIYOU)の突合、関係法令箇条番号を表す項目(J1,J2,K1,K2,G1,G2)の突合、入力を表す項目(INPUT)の突合、および、出力を表す項目(OUTPUT)の突合が行われ、それぞれにおいて文章間の文章類似度が算出される。この文章類似度は、文章の組み合わせごとに合計された後、実施の形態1のステップS15(図17)と同様の最終的な対応付けに用いられる。
このように、実施の形態2に係る演算手段は、業務の処理内容を表す文字列だけでなく、業務の入力または出力となる情報の名称を表す文字列と、業務に関連する法令の箇条番号とにも基づいて対応付けを行う。
このように、実施の形態2では、様々な情報を含む様々な項目に基づいて対応付けを行うので、対応付けの精度をより向上させることが可能である。
また、実施の形態2では、組織の性質または業務の性質に応じて項目ごとに重みを変化させることで、対応付けの精度をより向上させることができる。たとえば、自治体のように法律に関係の深い組織の業務に対しては、関係法令箇条番号を表す項目(J1,J2,K1,K2,G1,G2)に含まれる単語(すなわち箇条番号)に対して、他の項目に含まれる単語より大きい重みを付与することで、精度をより向上させることが可能である。
なお、箇条番号は単なる数値であり、文章表現が一般に含むような曖昧性を持たないので、さらに精度が向上する可能性がある。
実施の形態2において、さらに他の項目に基づいて対応付けを行ってもよい。たとえば、業務に関連する法令の名称を表す項目、業務に関連する外部組織の名称(「税務署」等)を表す項目、業務に関連する組織内の部署名(「住民課」「税務課」等)を表す項目、業務を実施する実施時期や実施月(「4月」等)を表す項目、等が考えられる。また、とくに自治体の税業務を想定する場合、業務に関連する税の名称を表す項目に基づいて対応付けを行うようにすれば、さらに精度が向上する可能性がある。
また、実施の形態2において、実施の形態1と同様の変形を施すことができる。
10 演算手段、20 記憶手段、21 基軸文章DB、22 実業務文章DB、25 基軸単語DB、26 基軸単語拡張DB、27 実業務単語DB、28 突合詳細DB、29 集計DB、30 結果DB、100 文章対応付けシステム。

Claims (8)

  1. 文章間の対応付けを行う、文章対応付けシステムであって、
    前記対応付けの基軸となる複数の基軸文章と、前記基軸文章に対して対応付けを行なう対象となる複数の実業務文章とを記憶する、記憶手段と、
    前記実業務文章のそれぞれについて、前記基軸文章のいずれかへの対応付けを行う、演算手段と
    を備え、
    前記実業務文章はそれぞれ、その実業務文章を特定するための業務番号と、その実業務文章に対応する作業の処理内容を表す実業務文字列とを含み、
    前記基軸文章はそれぞれ、その基軸文章を特定するための番号と、その基軸文章に対応する作業の処理内容を表す基軸文字列とを含み、
    前記演算手段は、前記基軸文字列および前記実業務文字列のそれぞれに含まれる単語を識別し、
    前記演算手段は、前記基軸文字列に含まれる基軸単語と、前記実業務文字列に含まれる実業務単語とが一致する度合いに基づいて、基軸文章を特定するための前記番号と前記業務番号とを用いて前記対応付けを行い、
    前記演算手段は、出力用のデータを作成し、
    前記出力用のデータは、前記基軸文章と、その基軸文章に対応付けられた実業務文章とを、左右に並列して出力することを示す、文章対応付けシステム。
  2. 前記演算手段は、前記基軸単語のそれぞれについて定義される重みに基づいて前記対応付けを行う、請求項1に記載の文章対応付けシステム。
  3. 前記演算手段は、前記実業務文字列および前記基軸文字列のそれぞれについて、形態素解析を行って前記実業務単語および前記基軸単語を取得し、
    前記演算手段は、前記実業務文字列と前記基軸文字列との組み合わせのそれぞれについて、前記実業務単語と、前記基軸単語またはその同義語とが一致する回数を算出し、
    前記演算手段は、前記組み合わせのそれぞれについて、前記一致する回数と、一致した基軸単語について定義された前記重みとを乗算して、各実業務単語の一致度を算出し、
    前記演算手段は、前記組み合わせのそれぞれについて、すべての実業務単語の前記一致度の総和を算出し、前記総和に基づいて、その組み合わせにおける前記一致する度合いを文章類似度として算出し、
    前記演算手段は、前記実業務文字列のそれぞれを、最も大きい前記文章類似度を与える前記基軸文章に対して、または、前記文章類似度が閾値以上となる前記基軸文章すべてに対して、対応付ける、請求項2に記載の文章対応付けシステム。
  4. 前記演算手段は、前記基軸単語が名詞である場合にはその基軸単語の前記重みを1とし、それ以外の場合にはその基軸単語の前記重みを0とし、
    前記記憶手段は、複数の基軸単語について同義語を定義した辞書ファイルを記憶する、請求項2または3に記載の文章対応付けシステム。
  5. 前記演算手段は、
    前記業務の入力または出力となる情報の名称を表す文字列と、
    前記業務に関連する法令の箇条番号と
    に基づいて前記対応付けを行う、請求項1〜4のいずれか一項に記載の文章対応付けシステム。
  6. 前記記憶手段は、1つの基軸文章と、前記対応付けにおいてその基軸文章に対応付けられたすべての実業務文章とを、前記1つの基軸文章に集積して記憶する、請求項1〜5のいずれか一項に記載の文章対応付けシステム。
  7. 前記実業務文章は自治体の業務の内容を表すものである、請求項1〜6のいずれか一項に記載の文章対応付けシステム。
  8. コンピュータを、請求項1〜7のいずれか一項に記載の文章対応付けシステムとして機能させるための文章対応付けプログラム。
JP2011159799A 2011-07-21 2011-07-21 文章対応付けシステムおよび文章対応付けプログラム Expired - Fee Related JP5312531B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011159799A JP5312531B2 (ja) 2011-07-21 2011-07-21 文章対応付けシステムおよび文章対応付けプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011159799A JP5312531B2 (ja) 2011-07-21 2011-07-21 文章対応付けシステムおよび文章対応付けプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008105936A Division JP4791503B2 (ja) 2008-04-15 2008-04-15 文章対応付けシステムおよび文章対応付けプログラム

Publications (2)

Publication Number Publication Date
JP2011233164A true JP2011233164A (ja) 2011-11-17
JP5312531B2 JP5312531B2 (ja) 2013-10-09

Family

ID=45322358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011159799A Expired - Fee Related JP5312531B2 (ja) 2011-07-21 2011-07-21 文章対応付けシステムおよび文章対応付けプログラム

Country Status (1)

Country Link
JP (1) JP5312531B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021240832A1 (ja) * 2020-05-27 2021-12-02 日本電信電話株式会社 処理装置、処理方法および処理プログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296363A (ja) * 2002-03-29 2003-10-17 Fujitsu Ltd 文書検索方法
JP2004127196A (ja) * 2002-10-07 2004-04-22 Fuji Research Institute Corp コミュニティ形成支援システム、その端末、サーバ及びプログラム
JP2004280266A (ja) * 2003-03-13 2004-10-07 Mitsubishi Electric Corp 事業策定システム
JP2006277413A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 文書分類装置および文書分類方法
JP2006344118A (ja) * 2005-06-10 2006-12-21 Fuji Xerox Co Ltd 利用状況通知システム
JP2007041721A (ja) * 2005-08-01 2007-02-15 Ntt Resonant Inc 情報分類方法およびプログラム、装置および記録媒体
JP2007233474A (ja) * 2006-02-27 2007-09-13 Fuji Xerox Co Ltd 案件情報作成支援システム及びプログラム
JP2007323454A (ja) * 2006-06-02 2007-12-13 National Institute Of Information & Communication Technology 文書分類装置及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296363A (ja) * 2002-03-29 2003-10-17 Fujitsu Ltd 文書検索方法
JP2004127196A (ja) * 2002-10-07 2004-04-22 Fuji Research Institute Corp コミュニティ形成支援システム、その端末、サーバ及びプログラム
JP2004280266A (ja) * 2003-03-13 2004-10-07 Mitsubishi Electric Corp 事業策定システム
JP2006277413A (ja) * 2005-03-29 2006-10-12 Toshiba Corp 文書分類装置および文書分類方法
JP2006344118A (ja) * 2005-06-10 2006-12-21 Fuji Xerox Co Ltd 利用状況通知システム
JP2007041721A (ja) * 2005-08-01 2007-02-15 Ntt Resonant Inc 情報分類方法およびプログラム、装置および記録媒体
JP2007233474A (ja) * 2006-02-27 2007-09-13 Fuji Xerox Co Ltd 案件情報作成支援システム及びプログラム
JP2007323454A (ja) * 2006-06-02 2007-12-13 National Institute Of Information & Communication Technology 文書分類装置及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021240832A1 (ja) * 2020-05-27 2021-12-02 日本電信電話株式会社 処理装置、処理方法および処理プログラム
JP7477791B2 (ja) 2020-05-27 2024-05-02 日本電信電話株式会社 処理装置、処理方法および処理プログラム

Also Published As

Publication number Publication date
JP5312531B2 (ja) 2013-10-09

Similar Documents

Publication Publication Date Title
CN106020950B (zh) 基于复杂网络分析的函数调用图关键节点识别和标识方法
CN106407211B (zh) 对实体词的语义关系进行分类的方法和装置
Koehler et al. Data context informed data wrangling
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN113678118A (zh) 数据提取系统
US20190317953A1 (en) System and method for computerized semantic indexing and searching
Gregory Challenges and opportunities for digital history
Ali Zaidi et al. A multiapproach generalized framework for automated solution suggestion of support tickets
Solanki et al. A system to transform natural language queries into SQL queries
Xiong et al. Extended HMM and ranking models for Chinese spelling correction
Berdyugina et al. Setting up context-sensitive real-time contradiction matrix of a given field using unstructured texts of patent contents and natural language processing
RU2571405C1 (ru) Способ предварительного преобразования структурированного массива данных
JP2012113459A (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
JP2011233163A (ja) 文章対応付けシステムおよび文章対応付けプログラム
JP5312531B2 (ja) 文章対応付けシステムおよび文章対応付けプログラム
JP4791503B2 (ja) 文章対応付けシステムおよび文章対応付けプログラム
Revanth et al. Nl2sql: Natural language to sql query translator
Bloodgood et al. Data cleaning for xml electronic dictionaries via statistical anomaly detection
JP2019200582A (ja) 検索装置、検索方法及び検索プログラム
Yasmin et al. Potential candidate selection using information extraction and skyline queries
JP4477587B2 (ja) テキストデータのコンピュータ処理用操作ボタン生成方法
CN116028620B (zh) 一种基于多任务特征协同的生成专利摘要的方法及系统
JP7312841B2 (ja) 法律分析装置、及び法律分析方法
JP5811795B2 (ja) 文書分析システム、文書分析方法およびプログラム
Bertalan et al. Using Transformer Models and Textual Analysis for Log Parsing

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5312531

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees